Statistiek
HC1
Statistiek: Een verzameling hulpmiddelen waarmee je uitspraken kunt doen over processen waarbij het toeval
een rol speelt. Verschillende hulpmiddelen (of: technieken, toetsen) voor verschillende soorten processen.
Computerprogramma's (bijvoorbeeld SPSS) voor het rekenwerk.
Je wilt een uitspraak doen of een verschil significant is of komt door toeval.
Wetenschappelijke methode: Het proces om te komen tot een empirisch oordeel
Waarden - Ethiek
Feiten (kunnen juist of onjuist zijn) = Empirische wetenschappen: kennis vergaren door ervaring
Aristoteles (384 – 322 vC) - Rationalisme: kennis vergaren door te beredeneren (gedachte-experiment)
Galilei (1564-1642) - Zwaartekracht-experiment
Moderne wetenschap: Continue wisselwerking tussen rationalisme en empirische bevindingen
Wetenschappelijke methode: Het proces om te komen tot een empirisch (ervaring) oordeel
Dit proces begint met een vraagstelling over een waargenomen proces of verschijnsel plus een vermoeden over
een mogelijke oplossing.
De wetenschappelijke methode
Theorie: Het geheel aan samenhangende en niet onderling strijdige uitspraken over een waargenomen
verschijnsel of proces. Doorgaans is een theorie gebaseerd op verschillende onderzoeken.
Hypothese: Uit de theorie voortvloeiende voorspelling die getoetst kan worden.
● Moet heel precies geformuleerd worden.
● Moet falsifieerbaar zijn (d.w.z. op de feiten stuk kunnen lopen)
Voorbeeld: Wielrenners die testosteron gebruiken, fietsen deze tijdrit sneller dan wielrenners die dat niet doen.
Experiment:
Meten - Verzamelen van gegevens (data) om de hypothese te toetsen
Onderzoeksopzet - Heel precies omschrijven wat je gaat meten
Operationalisatie - Heel precies omschrijven hoe je gaat meten
Zorg voor:
● Validiteit (validity): dat je instrumentarium meet wat je wilt meten
● Betrouwbaarheid (reliability): dat wat je meet reproduceerbaar is
Analyse: Nagaan a.d.h.v. meetgegevens of voorspelling uitkomt = Hypothese testen
➢ Indien hypothese juist:
(Verificatie) –> Confirmatie (ondersteuning) (je kunt NIET spreken van verificatie)
➢ Indien hypothese onjuist:
Falsificatie (klopt niet): theorie aanpassen of verwerpen
,Experimenteel onderzoek: Kijken waar een manipulatie toe leidt.
● Onafhankelijke variabele: Datgene waarvan je de waarde manipuleert.
○ Bijvoorbeeld: Dopinggebruik
● Afhankelijke variabele: Datgene waarvan je de waarde meet (afhankelijk van de manipulatie).
○ Bijvoorbeeld: De tijd die de wielrenner over de 50 km doet
Voorbeeld: twee groepen, de een clean en de ander met doping en dan de tijd meten die ze erover doen meten
Verschillende meetschalen
Categoriale schalen:
Nominaal: classificaties
● de data kunnen alleen worden gecategoriseerd, ZONDER duidelijke rangorde (volgorde)
● Elk datapunt kan tot één categorie behoren
● VB: Geboorteplaats, Gender, Etniciteit, Automerken, Geloofsovertuiging
Ordinaal: rangorde
● de data kunnen worden gecategoriseerd MET duidelijke rangorde (volgorde) maar ZONDER gelijke
intervallen
● De intervallen zijn niet te bepalen of niet betekenisvol. VB: bijvoorbeeld een top vijf van Olympische
medaillewinnaars opstellen, maar dat zegt niet dat tussen iedere winnaar evenveel verschil zit in termen
van gewonnen wedstrijden.
● VB: top 10 bestsellers, ranglijst, goed-matig-slecht, 5 puntsschaal ontevreden-tevreden
○ onduidelijk wat er precies zit tussen nr. 1 en nr. 2 en nr. 3 en wat er tussen goed-matig-slecht
etc.
Continue schalen (in SPSS: scale):
Interval: gelijke eenheden
● Je kunt de data categoriseren en rangschikken (rangorde), en er zijn gelijke intervallen tussen de
categorieën. Maar geen absoluut nulpunt.
● Gelijk interval: verschil tussen twee opeenvolgende temperaturen is hetzelfde: 1 graad.
● Geen absoluut nulpunt: nul graden betekent meestal niet dat er geen temperatuur is. Als iemand een 0
haalt op een toets betekent dat niet dat diegene helemaal niet over de gemeten vaardigheid beschikt.
● VB: toetsscores, iq, jaartelling
Ratio met absoluut nulpunt (lengte, leeftijd, gewicht, snelheid, tijd) (hiermee kan je wel zeggen is 2x zo snel)
● Je kunt je data categoriseren en rangschikken, en er is sprake van gelijke intervallen tussen
opeenvolgende datapunten. Ook is er een betekenisvol of absoluut nulpunt. Een betekenisvol nulpunt
betekent dat de bestudeerde variabele bij 0 helemaal afwezig is. Bij ratioschalen staat 0 dus gelijk aan
die absolute afwezigheid van de eigenschap.
● Absoluut nulpunt: bij temperatuur in Kelvin betekent 0 dus daadwerkelijk dat er geen thermische energie
aanwezig is.
Bij een intervalschaal kun je verschillen wel vergelijken maar kun je niks zeggen over verhoudingen. Dus als het
20 graden is en het wordt 40 graden kun je niet zeggen dat het twee keer zo warm is, omdat 0 graden geen
absoluut nulpunt is (het betekent niet “geen temperatuur”). Verhoudingen kun je wel gebruiken bij de ratio schaal,
dan kan je dus wel zeggen ‘twee keer zo veel’. Bijvoorbeeld bij snelheid, omdat bij 0 km/h er echt geen
beweging/snelheid is. Dus bij een intervalschaal kun je niet zeggen dat iets "2x zoveel" is, omdat het nulpunt
arbitrair is. Bij een ratioschaal kan dat wel, omdat een waarde van 0 écht betekent dat er niets is.
Hoe lager het meetniveau (nominaal - ratio is van laag naar hoog), hoe minder complex en nauwkeurig de analyse
is.
VB: dopinggebruik: nominale meetschaal (mogelijke waarden: clean of doping)
VB: tijd op de 50 km: ratio meetschaal (mogelijke waarden: alle mogelijke tijden in seconde)
,Sommatieteken
Gemiddelden van N waarden
Spreidingsmaten
sum of squares SS:
Variantie:
Standaarddeviatie:
➔ Variantie is dus Sum of Squares / N
➔ Wortel van de variantie is dus de standaarddeviatie
➔ Bovenstaande geldt voor populatie bij steekproef deel je bij variantie al door N-1
De binomiaalverdeling
De uitkomst die het meest voorkomt, is de grootste kans.
Bovenstaande is discreet en dit is omgezet in een continuümverdeling bij een normaalverdeling.
De normaalverdeling als kansverdeling
, oppervlakte onder de curve altijd 1
curve GAAT van - oneindig tot + oneindig
Parametrische testen zijn gebaseerd op de normaalverdeling, genormaliseerd door gemiddelde en
standaarddeviatie.
Z-scores
Hiermee transformeer je waarden naar standaard normaalscores om deze met elkaar te kunnen vergelijken
Indien het gemiddelde 48 is en de standaarddeviatie 6 geldt:
x = 48 –> z = 0 | x = 54 –> z = 1 | x = 36 –> z = -2
De z-score geeft dus aan hoeveel standaarddeviaties het van het gemiddelde af ligt.
De standaard normaalscores
● Wat betreft -2σ (standaarddeviatie) zit je binnen het 95%-betrouwbaarheidsinterval ( -2σ=-1.96*x). Dus
eigenlijk tussen -2*standaarddeviatie en +2*standaarddeviatie komt veel voor, daar buiten een stuk
minder. Het 95%-betrouwbaarheidsinterval zit dus tussen -2 en 2 std.
● Dus wat betreft Z-waardes van de meetwaardes moeten deze tussen de -2 en 2 liggen om binnen het
betrouwbaarheidsinterval te liggen. Dit geldt ook voor Z-waardes van de skewness en kurtosis. Dus alle
Z-scores vergelijken met betrouwbaarheidsinterval, dus met [2,2].
Populatie en steekproef
Populatie: Alle mannelijke profwielrenners –> DELEN DOOR N
Steekproef: Een aantal (N) willekeurig geselecteerde leden van de populatie –> DELEN DOOR N-1
HC1
Statistiek: Een verzameling hulpmiddelen waarmee je uitspraken kunt doen over processen waarbij het toeval
een rol speelt. Verschillende hulpmiddelen (of: technieken, toetsen) voor verschillende soorten processen.
Computerprogramma's (bijvoorbeeld SPSS) voor het rekenwerk.
Je wilt een uitspraak doen of een verschil significant is of komt door toeval.
Wetenschappelijke methode: Het proces om te komen tot een empirisch oordeel
Waarden - Ethiek
Feiten (kunnen juist of onjuist zijn) = Empirische wetenschappen: kennis vergaren door ervaring
Aristoteles (384 – 322 vC) - Rationalisme: kennis vergaren door te beredeneren (gedachte-experiment)
Galilei (1564-1642) - Zwaartekracht-experiment
Moderne wetenschap: Continue wisselwerking tussen rationalisme en empirische bevindingen
Wetenschappelijke methode: Het proces om te komen tot een empirisch (ervaring) oordeel
Dit proces begint met een vraagstelling over een waargenomen proces of verschijnsel plus een vermoeden over
een mogelijke oplossing.
De wetenschappelijke methode
Theorie: Het geheel aan samenhangende en niet onderling strijdige uitspraken over een waargenomen
verschijnsel of proces. Doorgaans is een theorie gebaseerd op verschillende onderzoeken.
Hypothese: Uit de theorie voortvloeiende voorspelling die getoetst kan worden.
● Moet heel precies geformuleerd worden.
● Moet falsifieerbaar zijn (d.w.z. op de feiten stuk kunnen lopen)
Voorbeeld: Wielrenners die testosteron gebruiken, fietsen deze tijdrit sneller dan wielrenners die dat niet doen.
Experiment:
Meten - Verzamelen van gegevens (data) om de hypothese te toetsen
Onderzoeksopzet - Heel precies omschrijven wat je gaat meten
Operationalisatie - Heel precies omschrijven hoe je gaat meten
Zorg voor:
● Validiteit (validity): dat je instrumentarium meet wat je wilt meten
● Betrouwbaarheid (reliability): dat wat je meet reproduceerbaar is
Analyse: Nagaan a.d.h.v. meetgegevens of voorspelling uitkomt = Hypothese testen
➢ Indien hypothese juist:
(Verificatie) –> Confirmatie (ondersteuning) (je kunt NIET spreken van verificatie)
➢ Indien hypothese onjuist:
Falsificatie (klopt niet): theorie aanpassen of verwerpen
,Experimenteel onderzoek: Kijken waar een manipulatie toe leidt.
● Onafhankelijke variabele: Datgene waarvan je de waarde manipuleert.
○ Bijvoorbeeld: Dopinggebruik
● Afhankelijke variabele: Datgene waarvan je de waarde meet (afhankelijk van de manipulatie).
○ Bijvoorbeeld: De tijd die de wielrenner over de 50 km doet
Voorbeeld: twee groepen, de een clean en de ander met doping en dan de tijd meten die ze erover doen meten
Verschillende meetschalen
Categoriale schalen:
Nominaal: classificaties
● de data kunnen alleen worden gecategoriseerd, ZONDER duidelijke rangorde (volgorde)
● Elk datapunt kan tot één categorie behoren
● VB: Geboorteplaats, Gender, Etniciteit, Automerken, Geloofsovertuiging
Ordinaal: rangorde
● de data kunnen worden gecategoriseerd MET duidelijke rangorde (volgorde) maar ZONDER gelijke
intervallen
● De intervallen zijn niet te bepalen of niet betekenisvol. VB: bijvoorbeeld een top vijf van Olympische
medaillewinnaars opstellen, maar dat zegt niet dat tussen iedere winnaar evenveel verschil zit in termen
van gewonnen wedstrijden.
● VB: top 10 bestsellers, ranglijst, goed-matig-slecht, 5 puntsschaal ontevreden-tevreden
○ onduidelijk wat er precies zit tussen nr. 1 en nr. 2 en nr. 3 en wat er tussen goed-matig-slecht
etc.
Continue schalen (in SPSS: scale):
Interval: gelijke eenheden
● Je kunt de data categoriseren en rangschikken (rangorde), en er zijn gelijke intervallen tussen de
categorieën. Maar geen absoluut nulpunt.
● Gelijk interval: verschil tussen twee opeenvolgende temperaturen is hetzelfde: 1 graad.
● Geen absoluut nulpunt: nul graden betekent meestal niet dat er geen temperatuur is. Als iemand een 0
haalt op een toets betekent dat niet dat diegene helemaal niet over de gemeten vaardigheid beschikt.
● VB: toetsscores, iq, jaartelling
Ratio met absoluut nulpunt (lengte, leeftijd, gewicht, snelheid, tijd) (hiermee kan je wel zeggen is 2x zo snel)
● Je kunt je data categoriseren en rangschikken, en er is sprake van gelijke intervallen tussen
opeenvolgende datapunten. Ook is er een betekenisvol of absoluut nulpunt. Een betekenisvol nulpunt
betekent dat de bestudeerde variabele bij 0 helemaal afwezig is. Bij ratioschalen staat 0 dus gelijk aan
die absolute afwezigheid van de eigenschap.
● Absoluut nulpunt: bij temperatuur in Kelvin betekent 0 dus daadwerkelijk dat er geen thermische energie
aanwezig is.
Bij een intervalschaal kun je verschillen wel vergelijken maar kun je niks zeggen over verhoudingen. Dus als het
20 graden is en het wordt 40 graden kun je niet zeggen dat het twee keer zo warm is, omdat 0 graden geen
absoluut nulpunt is (het betekent niet “geen temperatuur”). Verhoudingen kun je wel gebruiken bij de ratio schaal,
dan kan je dus wel zeggen ‘twee keer zo veel’. Bijvoorbeeld bij snelheid, omdat bij 0 km/h er echt geen
beweging/snelheid is. Dus bij een intervalschaal kun je niet zeggen dat iets "2x zoveel" is, omdat het nulpunt
arbitrair is. Bij een ratioschaal kan dat wel, omdat een waarde van 0 écht betekent dat er niets is.
Hoe lager het meetniveau (nominaal - ratio is van laag naar hoog), hoe minder complex en nauwkeurig de analyse
is.
VB: dopinggebruik: nominale meetschaal (mogelijke waarden: clean of doping)
VB: tijd op de 50 km: ratio meetschaal (mogelijke waarden: alle mogelijke tijden in seconde)
,Sommatieteken
Gemiddelden van N waarden
Spreidingsmaten
sum of squares SS:
Variantie:
Standaarddeviatie:
➔ Variantie is dus Sum of Squares / N
➔ Wortel van de variantie is dus de standaarddeviatie
➔ Bovenstaande geldt voor populatie bij steekproef deel je bij variantie al door N-1
De binomiaalverdeling
De uitkomst die het meest voorkomt, is de grootste kans.
Bovenstaande is discreet en dit is omgezet in een continuümverdeling bij een normaalverdeling.
De normaalverdeling als kansverdeling
, oppervlakte onder de curve altijd 1
curve GAAT van - oneindig tot + oneindig
Parametrische testen zijn gebaseerd op de normaalverdeling, genormaliseerd door gemiddelde en
standaarddeviatie.
Z-scores
Hiermee transformeer je waarden naar standaard normaalscores om deze met elkaar te kunnen vergelijken
Indien het gemiddelde 48 is en de standaarddeviatie 6 geldt:
x = 48 –> z = 0 | x = 54 –> z = 1 | x = 36 –> z = -2
De z-score geeft dus aan hoeveel standaarddeviaties het van het gemiddelde af ligt.
De standaard normaalscores
● Wat betreft -2σ (standaarddeviatie) zit je binnen het 95%-betrouwbaarheidsinterval ( -2σ=-1.96*x). Dus
eigenlijk tussen -2*standaarddeviatie en +2*standaarddeviatie komt veel voor, daar buiten een stuk
minder. Het 95%-betrouwbaarheidsinterval zit dus tussen -2 en 2 std.
● Dus wat betreft Z-waardes van de meetwaardes moeten deze tussen de -2 en 2 liggen om binnen het
betrouwbaarheidsinterval te liggen. Dit geldt ook voor Z-waardes van de skewness en kurtosis. Dus alle
Z-scores vergelijken met betrouwbaarheidsinterval, dus met [2,2].
Populatie en steekproef
Populatie: Alle mannelijke profwielrenners –> DELEN DOOR N
Steekproef: Een aantal (N) willekeurig geselecteerde leden van de populatie –> DELEN DOOR N-1