Tentamensamenvatting Beschrijvende technieken
Hoofdstuk 1: Plaats van statistiek in het onderzoek
Toetsende statistiek: Conclusies uit een steekproef trekken
over een grotere populatie.
Beschrijvende statistiek: Zo goed mogelijke weergave
van verzamelde gegevens.
Sociaal-wetenschappelijk onderzoek bestaat uit een aantal fasen:
Fase 1: Vraagstelling, probleemtheorie
Om sociaal wetenschappelijk onderzoek te starten begint men met een onderzoeksvraag.
Deze vraag moet aan het eind van het onderzoek beantwoord kunnen worden. Daarnaast kan
er een onderzoekshypothese geformuleerd worden aan de hand van de onderzoeksvraag.
Dit is het vermeende antwoord. Blijkt uit het onderzoek dat de hypothese niet klopt dan wordt
deze verworpen. Klopt de hypothese wel dan blijft deze standhouden tot in vervolgonderzoek
wordt aangetoond dat deze niet klopt.
De variabele waarop men verschillen verwacht heet de afhankelijke variabele, omdat de
waarde van deze variabele verandert kan worden door onafhankelijke variabelen (waarvan
de waarde vaststaat, zoals sekse).
Fase 2: Meetbaar maken (operationaliseringsfase)
Hierin wordt duidelijk gemaakt hoe de verschillende waarden van de gebruikte begrippen
worden vastgesteld (begrip: sekse, waarden: j/m), wat we het operationaliseren van
begrippen noemen. Bijvoorbeeld vaststellen onder welke leeftijden je onderzoekt, wat de
definitie van het begrip sekse, aanleg of wiskunde is, wat er precies onderzocht wordt (zoals
de verschillen in aanleg voor wiskunde tussen jongens en meisjes).
Fase 3: Steekproefopzet
Hierin wordt besloten bij welke onderzoekspersonen de gegevens voor het onderzoek
verzameld gaan worden. Hoeveel steekproeven (bij toeval bepaald deel van populatie dat
daadwerkelijk wordt onderzocht) en hoe grote steekproeven nemen we?
Fase 4: Verrichten van metingen en/of verzamelen van gegevens
Er zijn verschillende methoden ontwikkeld voor het verzamelen van gegevens (interview,
vragenlijst, test/toets, archiefonderzoek, observatie en experiment). De gegevens die uit een
onderzoek worden gehaald worden weergegeven in een matrix. Hierin worden de
onderzoekseenheden (waar het onderzoek over gaat: personen/instanties) en relevante
variabelen weergegeven. In een steekproef kan een waarde missen. Deze ontbrekende
waardes (missing values) komen vaak voor. In statistiekprogramma’s wordt hier
automatisch rekening mee gehouden. Kwalitatieve categorieën (zoals sekse) kunnen we
weergeven, maar werken niet handig met computerprogramma’s. Daarom stelt men vaak
vooraf een codeboek op, waarin variabelen verschillende waardes toegekend krijgen (zoals
jongen = 1, meisje = 2, missing value=99). Wanneer alle gegevens in de matrix staan zoals
ze worden ingevoerd heet de matrix een data-matrix of een tabel van ruwe gegevens, om aan
te geven dat de informatie in de tabel onbewerkt is.
Fase 5: Beschrijven en analyseren van gegevens
In deze fase worden de gegevens op een statistische wijze beschreven en geanalyseerd. Er
worden overzichtelijke tabellen uit de datamatrix afgeleid, zoals bijvoorbeeld een
frequentieverdeling f (bv. De variabele ‘sekse’ wordt opgesplitst in het aantal jongens en
meisjes). Het totaal aantal waarnemingen wordt aangeduid met N, van number. Ook kan er
uit de data-matrix bijvoorbeeld een tabel met gemiddelde scores worden opgesteld. Het
weergeven van de gegevens op een bondige wijze, zonder conclusies te trekken heet
beschrijven. Dat beschrijven kan op verschillende manieren en daarom is het handig om van
tevoren een analyseplan te schrijven, waarin staat hoe gegevens weergegeven en
geanalyseerd zullen worden.
Fase 6: Formuleren van statische conclusies
Hierin worden statische conclusies geformuleerd (aan de hand van de verkregen
toetsresultaten). Dit is toetsende statistiek, hier worden gekeken of de verkregen resultaten
geldig zijn voor de hele populatie.
,Fase 7: Verband tussen resultaten en theorie
De resultaten van het onderzoek worden na het formuleren van de statistische conclusies in
verband gebracht met de theorie. Het verwerken van de informatie betekent dat de theorie
wordt aangepast aan de hand van de resultaten. De gewijzigde theorie kan leiden tot een
nieuw onderzoek. De zevende fase gaat op deze wijze over in het begin van een nieuw
onderzoek: een empirische cyclus: een cyclus waarbij uit een ingeperkt/verworpen
onderzoek een nieuwe onderzoeksvraag naar voren komt.
Hoofdstuk 2: Operationaliseren en meten
De begrippen in een onderzoeksvraag zijn variabelen, zoals ‘aanleg’ of ‘belang’. Deze
begrippen moeten in het onderzoek een waarde meekrijgen: ze moeten
geoperationaliseerd worden. Dit wordt gedaan door een definitie aan te geven, maar ook
door te bepalen hoe ‘aanleg’ of ‘belang’ wordt gemeten. In de beschrijvende statistiek
wordt over het algemeen vooraf de waarde van variabelen bepaald. Een variabele kun je
daarom ook een geoperationaliseerd begrip noemen. Als de waarde van een variabele
een getal is wordt deze ook wel ‘score’ genoemd. De variabele wordt meestal afgezet
tegen hun tegenhangers: een constante: een begrip dat binnen een bepaald onderzoek
geen verandering vertoond, bijvoorbeeld ‘mens-zijn’ of ‘brugklasser-zijn’. ‘Brugklasser-
zijn’ kan ook een variabele zijn wanneer er ook andere klassen in het onderzoek worden
meegenomen.
De waarde van een variabele is geen variabele zelf. Er is slechts sprake van een
variabele indien een variabele meerdere waarden kent. Variabele: het al dan niet lid zijn
van een sportschool Waarde 1: het lid zijn van een sportschool, 2: geen lid zijn van een
sportschool.
Variabelen kunnen een discrete of continue variabele zijn.
Discrete variabele: dit is een variabele die slechts hele waarden kan aannemen, het
aantal graankorrels, het aantal kinderen, het aantal goede antwoorden.
Continue variabele: dit is een variabele waarbij de verschillende waarden willekeurig
klein kunnen zijn, zoals bij lichaamslengte.
Bij continue variabelen kunnen de waarde dus geleidelijker toenemen, terwijl dat bij
discrete variabelen sprongsgewijs gaat.
Variabelen kunnen ook van verschillende meetniveaus zijn. Zo is geslacht (j/m) van een
ander meetniveau dan ‘aanleg’. De eerste bestaat uit een categorische indeling, de ander
uit getallen. Meetniveaus zijn van belang bij het bepalen van de statistische techniek en
spelen daarom een belangrijke rol. Meten is niets anders dan vaststellen welke waarde
een object (element, persoon) op een of andere variabele heeft.
Nominale variabele: (categorische/kwalitatieve variabele) een variabele waarbij alleen
kan worden gesteld dat er een verschil is tussen de waarden, maar niet hoeveel verschil
er is, bijvoorbeeld nominale variabele ‘geslacht’, waarden ‘jongen’/’meisje’. De waarden
zijn dus niet te rangordenen, er is geen meeteenheid en er is geen nulpunt. Andere
voorbeelden: kerkgenootschap, voetbalrugnummers, telefoonnummers etc.
Ordinale variabele: Wanneer we waarden van een variabele kunnen rangordenen,
zeggen we dat deze is gemeten op een rangordeschaal of ordinaal meetniveau.
Bijvoorbeeld rangen in het leger. Er is geen nulpunt en geen meeteenheid (je kunt
immers niet zeggen dat een kolonel tweemaal zo hoog is als een sergeant).
Intervalvariabele: Denk hierbij aan bijvoorbeeld temperatuur. Om water van 40 naar
60gr te verwarmen heb je net zoveel energie nodig als van 60 naar 80. Toch kun je niet
zeggen dat 80 graden dubbel zo heet is als 40 graden omdat het nulpunt ontbreekt (0gr
Celcius betekent immers niet dat er geen temperatuur meer is). Van variabelen waarvan
even grote intervallen steeds aan elkaar gelijk blijven, zeggen we dat deze worden
gemeten op een intervalschaal of intervalniveau. Bijvoorbeeld ook de jaartelling, het jaar
0 is niet de datum waarop alles opeens is begonnen.
, Ratiovariabele: Denk hierbij aan de variabele ‘gewicht’. Er is sprake van een nulpunt
(0kg), er is sprake van een rangorde(10kg is zwaarder dan 9 kg), er is sprake van een
meeteenheid (iemand van 20 kg is dubbel zo zwaar als iemand van 10 kg) en er is
sprake van een nominale klasse (‘gewicht’).
Nominaal Ordinaal Interval Ratio De meetniveaus zorgen
Rangorde? X O O O ervoor dat er
Meeteenheid? X X O O mogelijkheid is om de
Nulpunt? X X X O getallen te
transformeren:
getalswaarden van variabelen een rekenkundige bewerking doen ondergaan. Denk hierbij
aan een onderzoeker die (als ‘aanloopje’) twee hele makkelijke vragen stelt in een
onderzoek die iedereen goed heeft. Wat hij feitelijk doet is 2 optellen bij de rest van de
opgaven. Zo zijn er ook redenen om een getal van de waarden af te trekken, te
vermenigvuldigen of te delen.
In principe mag er op alle schalen worden vermeerderd, verminderd, vermenigvuldigd en
gedeeld, behalve op de ratioschaal (niet verminderen/vermeerderen omdat de
verhouding tussen de waarden van belang is). Kwadrateren mag op geen enkele schaal,
o.a. omdat hierbij plus en min dezelfde waarde heeft.
Een absolute variabele staat vast en kan niet getransformeerd worden, omdat dan de
resultaten veranderen.
Meten is het toekennen van een waarde aan een object ten opzichte van een of andere
variabele. Er wordt goed gemeten wanneer zij aan haar doel beantwoordt. Meten kan
men zien als een proces dat de verbinding legt tussen het begrip-zoals-bedoeld
(theorietisch begrip, niet observeerbaar) en het begrip-zoals-bepaald (waarneembaar
kenmerk, zoals een aangestreept antwoord op een test, gedrag of het antwoord aan een
interviewer, in het wiskundevoorbeeld zijn de vier proefwerken de empirische
variabele). Als theoretische begrippen niet naar waarneembare variabelen verwijzen,
blijft de theorie abstract en is de geldigheid moeilijk vast te stellen. Uitgaande van de
eerdere definitie van meten, moeten we de vraag kunnen beantwoorden in hoeverre een
geoperationaliseerde variabele een bepaald theoretisch begrip weergeeft. ‘wiskunde-
aanleg’ (theoretisch begrip) wordt bijv bepaald door de uitkomst van vier
wiskundeproefwerken (empirische variabele/begrip zoals bepaald).
Een meetinstrument moet voldoen aan de volgende eisen:
1. Betrouwbaarheid: dat het meetinstrument onder identieke omstandigheden
dezelfde waardes oplevert.
2. Validiteit: dat het datgene meet wat het pretendeert te meten.
Bij betrouwbaarheid kunnen toevallige fouten een rol spelen, terwijl bij validiteit er
sprake is van systematische fouten in een meting. Belangrijk is dus dat betrouwbaarheid
een noodzakelijke, maar niet afdoende voorwaarde hoeft te zijn voor validiteit.
Hoofdstuk 3: Frequentieverdelingen
Alle gegevens van een onderzoek, noemen we het gegevensbestand. In een datamatrix
(matrix van de ruwe gegevens) worden de gegevens ondergebracht. Er is dan nog niks
mee gebeurd.
1. Ondanks de systematiek blijft het een onoverzichtelijke tabel.
2. Je hoeft in een onderzoek vaak niet alles tegelijk te weten. Daarom worden er
vaak frequentieverdelingen gemaakt. Wat is bijvoorbeeld de frequentie (f) van 12-
jarigen in de brugklas op het totaal (N).
Soms staat er voor een totaal ook een kleine n, waarmee meestal expliciet naar het
aantal waarnemingen in de steekproef wordt verwezen. De grote N wordt dan gebruikt
voor het aantal elementen in de populatie waaruit de steekproef afkomstig is.
Hoofdstuk 1: Plaats van statistiek in het onderzoek
Toetsende statistiek: Conclusies uit een steekproef trekken
over een grotere populatie.
Beschrijvende statistiek: Zo goed mogelijke weergave
van verzamelde gegevens.
Sociaal-wetenschappelijk onderzoek bestaat uit een aantal fasen:
Fase 1: Vraagstelling, probleemtheorie
Om sociaal wetenschappelijk onderzoek te starten begint men met een onderzoeksvraag.
Deze vraag moet aan het eind van het onderzoek beantwoord kunnen worden. Daarnaast kan
er een onderzoekshypothese geformuleerd worden aan de hand van de onderzoeksvraag.
Dit is het vermeende antwoord. Blijkt uit het onderzoek dat de hypothese niet klopt dan wordt
deze verworpen. Klopt de hypothese wel dan blijft deze standhouden tot in vervolgonderzoek
wordt aangetoond dat deze niet klopt.
De variabele waarop men verschillen verwacht heet de afhankelijke variabele, omdat de
waarde van deze variabele verandert kan worden door onafhankelijke variabelen (waarvan
de waarde vaststaat, zoals sekse).
Fase 2: Meetbaar maken (operationaliseringsfase)
Hierin wordt duidelijk gemaakt hoe de verschillende waarden van de gebruikte begrippen
worden vastgesteld (begrip: sekse, waarden: j/m), wat we het operationaliseren van
begrippen noemen. Bijvoorbeeld vaststellen onder welke leeftijden je onderzoekt, wat de
definitie van het begrip sekse, aanleg of wiskunde is, wat er precies onderzocht wordt (zoals
de verschillen in aanleg voor wiskunde tussen jongens en meisjes).
Fase 3: Steekproefopzet
Hierin wordt besloten bij welke onderzoekspersonen de gegevens voor het onderzoek
verzameld gaan worden. Hoeveel steekproeven (bij toeval bepaald deel van populatie dat
daadwerkelijk wordt onderzocht) en hoe grote steekproeven nemen we?
Fase 4: Verrichten van metingen en/of verzamelen van gegevens
Er zijn verschillende methoden ontwikkeld voor het verzamelen van gegevens (interview,
vragenlijst, test/toets, archiefonderzoek, observatie en experiment). De gegevens die uit een
onderzoek worden gehaald worden weergegeven in een matrix. Hierin worden de
onderzoekseenheden (waar het onderzoek over gaat: personen/instanties) en relevante
variabelen weergegeven. In een steekproef kan een waarde missen. Deze ontbrekende
waardes (missing values) komen vaak voor. In statistiekprogramma’s wordt hier
automatisch rekening mee gehouden. Kwalitatieve categorieën (zoals sekse) kunnen we
weergeven, maar werken niet handig met computerprogramma’s. Daarom stelt men vaak
vooraf een codeboek op, waarin variabelen verschillende waardes toegekend krijgen (zoals
jongen = 1, meisje = 2, missing value=99). Wanneer alle gegevens in de matrix staan zoals
ze worden ingevoerd heet de matrix een data-matrix of een tabel van ruwe gegevens, om aan
te geven dat de informatie in de tabel onbewerkt is.
Fase 5: Beschrijven en analyseren van gegevens
In deze fase worden de gegevens op een statistische wijze beschreven en geanalyseerd. Er
worden overzichtelijke tabellen uit de datamatrix afgeleid, zoals bijvoorbeeld een
frequentieverdeling f (bv. De variabele ‘sekse’ wordt opgesplitst in het aantal jongens en
meisjes). Het totaal aantal waarnemingen wordt aangeduid met N, van number. Ook kan er
uit de data-matrix bijvoorbeeld een tabel met gemiddelde scores worden opgesteld. Het
weergeven van de gegevens op een bondige wijze, zonder conclusies te trekken heet
beschrijven. Dat beschrijven kan op verschillende manieren en daarom is het handig om van
tevoren een analyseplan te schrijven, waarin staat hoe gegevens weergegeven en
geanalyseerd zullen worden.
Fase 6: Formuleren van statische conclusies
Hierin worden statische conclusies geformuleerd (aan de hand van de verkregen
toetsresultaten). Dit is toetsende statistiek, hier worden gekeken of de verkregen resultaten
geldig zijn voor de hele populatie.
,Fase 7: Verband tussen resultaten en theorie
De resultaten van het onderzoek worden na het formuleren van de statistische conclusies in
verband gebracht met de theorie. Het verwerken van de informatie betekent dat de theorie
wordt aangepast aan de hand van de resultaten. De gewijzigde theorie kan leiden tot een
nieuw onderzoek. De zevende fase gaat op deze wijze over in het begin van een nieuw
onderzoek: een empirische cyclus: een cyclus waarbij uit een ingeperkt/verworpen
onderzoek een nieuwe onderzoeksvraag naar voren komt.
Hoofdstuk 2: Operationaliseren en meten
De begrippen in een onderzoeksvraag zijn variabelen, zoals ‘aanleg’ of ‘belang’. Deze
begrippen moeten in het onderzoek een waarde meekrijgen: ze moeten
geoperationaliseerd worden. Dit wordt gedaan door een definitie aan te geven, maar ook
door te bepalen hoe ‘aanleg’ of ‘belang’ wordt gemeten. In de beschrijvende statistiek
wordt over het algemeen vooraf de waarde van variabelen bepaald. Een variabele kun je
daarom ook een geoperationaliseerd begrip noemen. Als de waarde van een variabele
een getal is wordt deze ook wel ‘score’ genoemd. De variabele wordt meestal afgezet
tegen hun tegenhangers: een constante: een begrip dat binnen een bepaald onderzoek
geen verandering vertoond, bijvoorbeeld ‘mens-zijn’ of ‘brugklasser-zijn’. ‘Brugklasser-
zijn’ kan ook een variabele zijn wanneer er ook andere klassen in het onderzoek worden
meegenomen.
De waarde van een variabele is geen variabele zelf. Er is slechts sprake van een
variabele indien een variabele meerdere waarden kent. Variabele: het al dan niet lid zijn
van een sportschool Waarde 1: het lid zijn van een sportschool, 2: geen lid zijn van een
sportschool.
Variabelen kunnen een discrete of continue variabele zijn.
Discrete variabele: dit is een variabele die slechts hele waarden kan aannemen, het
aantal graankorrels, het aantal kinderen, het aantal goede antwoorden.
Continue variabele: dit is een variabele waarbij de verschillende waarden willekeurig
klein kunnen zijn, zoals bij lichaamslengte.
Bij continue variabelen kunnen de waarde dus geleidelijker toenemen, terwijl dat bij
discrete variabelen sprongsgewijs gaat.
Variabelen kunnen ook van verschillende meetniveaus zijn. Zo is geslacht (j/m) van een
ander meetniveau dan ‘aanleg’. De eerste bestaat uit een categorische indeling, de ander
uit getallen. Meetniveaus zijn van belang bij het bepalen van de statistische techniek en
spelen daarom een belangrijke rol. Meten is niets anders dan vaststellen welke waarde
een object (element, persoon) op een of andere variabele heeft.
Nominale variabele: (categorische/kwalitatieve variabele) een variabele waarbij alleen
kan worden gesteld dat er een verschil is tussen de waarden, maar niet hoeveel verschil
er is, bijvoorbeeld nominale variabele ‘geslacht’, waarden ‘jongen’/’meisje’. De waarden
zijn dus niet te rangordenen, er is geen meeteenheid en er is geen nulpunt. Andere
voorbeelden: kerkgenootschap, voetbalrugnummers, telefoonnummers etc.
Ordinale variabele: Wanneer we waarden van een variabele kunnen rangordenen,
zeggen we dat deze is gemeten op een rangordeschaal of ordinaal meetniveau.
Bijvoorbeeld rangen in het leger. Er is geen nulpunt en geen meeteenheid (je kunt
immers niet zeggen dat een kolonel tweemaal zo hoog is als een sergeant).
Intervalvariabele: Denk hierbij aan bijvoorbeeld temperatuur. Om water van 40 naar
60gr te verwarmen heb je net zoveel energie nodig als van 60 naar 80. Toch kun je niet
zeggen dat 80 graden dubbel zo heet is als 40 graden omdat het nulpunt ontbreekt (0gr
Celcius betekent immers niet dat er geen temperatuur meer is). Van variabelen waarvan
even grote intervallen steeds aan elkaar gelijk blijven, zeggen we dat deze worden
gemeten op een intervalschaal of intervalniveau. Bijvoorbeeld ook de jaartelling, het jaar
0 is niet de datum waarop alles opeens is begonnen.
, Ratiovariabele: Denk hierbij aan de variabele ‘gewicht’. Er is sprake van een nulpunt
(0kg), er is sprake van een rangorde(10kg is zwaarder dan 9 kg), er is sprake van een
meeteenheid (iemand van 20 kg is dubbel zo zwaar als iemand van 10 kg) en er is
sprake van een nominale klasse (‘gewicht’).
Nominaal Ordinaal Interval Ratio De meetniveaus zorgen
Rangorde? X O O O ervoor dat er
Meeteenheid? X X O O mogelijkheid is om de
Nulpunt? X X X O getallen te
transformeren:
getalswaarden van variabelen een rekenkundige bewerking doen ondergaan. Denk hierbij
aan een onderzoeker die (als ‘aanloopje’) twee hele makkelijke vragen stelt in een
onderzoek die iedereen goed heeft. Wat hij feitelijk doet is 2 optellen bij de rest van de
opgaven. Zo zijn er ook redenen om een getal van de waarden af te trekken, te
vermenigvuldigen of te delen.
In principe mag er op alle schalen worden vermeerderd, verminderd, vermenigvuldigd en
gedeeld, behalve op de ratioschaal (niet verminderen/vermeerderen omdat de
verhouding tussen de waarden van belang is). Kwadrateren mag op geen enkele schaal,
o.a. omdat hierbij plus en min dezelfde waarde heeft.
Een absolute variabele staat vast en kan niet getransformeerd worden, omdat dan de
resultaten veranderen.
Meten is het toekennen van een waarde aan een object ten opzichte van een of andere
variabele. Er wordt goed gemeten wanneer zij aan haar doel beantwoordt. Meten kan
men zien als een proces dat de verbinding legt tussen het begrip-zoals-bedoeld
(theorietisch begrip, niet observeerbaar) en het begrip-zoals-bepaald (waarneembaar
kenmerk, zoals een aangestreept antwoord op een test, gedrag of het antwoord aan een
interviewer, in het wiskundevoorbeeld zijn de vier proefwerken de empirische
variabele). Als theoretische begrippen niet naar waarneembare variabelen verwijzen,
blijft de theorie abstract en is de geldigheid moeilijk vast te stellen. Uitgaande van de
eerdere definitie van meten, moeten we de vraag kunnen beantwoorden in hoeverre een
geoperationaliseerde variabele een bepaald theoretisch begrip weergeeft. ‘wiskunde-
aanleg’ (theoretisch begrip) wordt bijv bepaald door de uitkomst van vier
wiskundeproefwerken (empirische variabele/begrip zoals bepaald).
Een meetinstrument moet voldoen aan de volgende eisen:
1. Betrouwbaarheid: dat het meetinstrument onder identieke omstandigheden
dezelfde waardes oplevert.
2. Validiteit: dat het datgene meet wat het pretendeert te meten.
Bij betrouwbaarheid kunnen toevallige fouten een rol spelen, terwijl bij validiteit er
sprake is van systematische fouten in een meting. Belangrijk is dus dat betrouwbaarheid
een noodzakelijke, maar niet afdoende voorwaarde hoeft te zijn voor validiteit.
Hoofdstuk 3: Frequentieverdelingen
Alle gegevens van een onderzoek, noemen we het gegevensbestand. In een datamatrix
(matrix van de ruwe gegevens) worden de gegevens ondergebracht. Er is dan nog niks
mee gebeurd.
1. Ondanks de systematiek blijft het een onoverzichtelijke tabel.
2. Je hoeft in een onderzoek vaak niet alles tegelijk te weten. Daarom worden er
vaak frequentieverdelingen gemaakt. Wat is bijvoorbeeld de frequentie (f) van 12-
jarigen in de brugklas op het totaal (N).
Soms staat er voor een totaal ook een kleine n, waarmee meestal expliciet naar het
aantal waarnemingen in de steekproef wordt verwezen. De grote N wordt dan gebruikt
voor het aantal elementen in de populatie waaruit de steekproef afkomstig is.