Hoorcollege 1: Toetsen, power en effectgrootte
Literatuur:
Hfdst 9: Statistical inference: significance test about hypotheses:
Berekenen minimale steekproefgrootte-> naar boven afronden.
Significantieniveau van 0,05-> als kleiner mag je nulhypothese verwerpen.
Tweezijdige toets: als je niet weet of iets groter of kleiner is, alleen dat het niet
gelijk is aan nulhypothese. Rekening houden met beide staarten van
normaalverdeling. Overschrijdingskans moet je dan verdubbelen.
De tweezijdige toets is robuust, zelfs als de steekproef klein is. Oftewel, hij is niet
gevoelig voor schendingen van de aanname van normale verdeling. Dus ook al is
np minder dan 15, gaat het vaak toch goed als je de normale verdeling gebruikt.
Bij eenzijdige toetsen met kleine steekproeven werkt de toets ook nog steeds
goed als p0 gelijk is aan 0.50.
Je mag de normale toets niet gebruiken bij eenzijdige toetsen met een kleine
steekproef en p0 is niet gelijk aan 0.50. Dan moet je de binomiaaltoets
gebruiken-> gaan we niet behandelen.
T-tabel werkt anders dan z-tabel-> t-waarden staan in de tabel en
overschrijdingskansen staan erboven.
Relatie betrouwbaarheidsinterval en tweezijdig toetsen: als de veronderstelde
gemiddelde buiten het 95% betrouwbaarheidsinterval valt, weet je al dat je de
nulhypothese kan verwerpen.
Aanname normale verdeling: bij tweezijdige toetsen met kleine steekproeven ook
robuust tegen schendingen van de assumptie van normaliteit. Ook als de toets
robuust is, toch goed naar de data kijken.
Stappen van een significantietest bij populatieproportie:
Aannames:
o De data is categorisch
o De data is verzameld door middel van randomisatie
o De steekproefgrootte is groot genoeg dat de steekproefproportie
normaal is. De steekproefproportie is normaal als deze minstens 15
is.
Hypotheses:
, o Nulhypothese: H0: p=p0, waarbij p een waarde tussen 0 en 1 heeft.
o Alternatieve hypothese: Ha: p>p0 of p<p0 (eenzijdig) of p≠p0
(tweezijdig).
Toets statistiek: standaardfout en z-score berekenen
P-waarde: de waarschijnlijkheid dat de test statistiek een waarde
aanneemt zoals de geobserveerde statistiek of een extremere. Aflezen uit
normaalverdeling, bij een kleine p-waarde, is de data tegenstrijdig met de
nulhypothese en support de alternatieve hypothese.
Conclusie: interpreteren van p-waarde. Significantielevel vastgesteld, bijv
op p≤0.05.
Stappen van een significantietest bij een gemiddelde:
Aannames:
o De variabele is kwantitatief
o De dataproductie is gedaan door randomisatie
o De populatiedistributie is normaal.
Hypotheses:
o H0: µ=µ0
o Ha: µ≠µ0 of µ<µ0 of µ>µ0.
Toets statistiek: de afstand tussen het steekproefgemiddelde µ en de
( x−μ 0)
nulhypothese waarde µ0. dit wordt gemeten door t= .
se
P-waarde: waarschijnlijkheid van een test statistiek.
Conclusie: interpretatie van p-waarde.
Het significantieniveau α is gelijk aan de kans van het afwijzen van de
nulhypothese terwijl deze eigenlijk waar is-> Type-I-fout.
De waarschijnlijkheid van een type-II-fout wordt groter naarmate de parameter
dichterbij de nulhypothese komt.
De power van een test: de kans dat de nulhypothese wordt afgewezen, als deze
fout is.
Effectgrootte en het onderscheidingsvermogen van een toets:
Onderscheidingsvermogen: bepaalt of een toets tot een significante uitkomst zal
leiden, ook al is de nulhypothese onjuist.
,Redenering bij een statistische toets is gebaseerd op waarschijnlijkheden,
waarbij we proberen het risico dat we een foute beslissing nemen zo klein
mogelijk te maken.
Type-I-fout wordt veel aandacht aan besteed door middel van significantieniveau
α. Type-II-fout wordt minder aandacht aan besteed in onderzoekspublicaties.
Dit is het onderscheidingsvermogen, of de power, van een statistische toets: de
kans om de nulhypothese te verwerpen wanneer deze daadwerkelijk onwaar is.
De fout bèta is moelijker te bepalen dan de fout alfa. Voor het schatten van het
onderscheidingsvermogen wordt vaak een gespecialiseerd programma gebruikt.
Onderscheidingsvermogen berekenen kan alleen als er een specifieke
alternatieve hypothese is.
Onderscheidingsvermogen wordt beïnvloed door:
Steekproefgrootte: hoe groter de steekproef, hoe groter het
onderscheidingsvermogen.
Significantieniveau: bij een hoger significantieniveau, is het
onderscheidingsvermogen groter.
Effectgrootte: hoe groter het effect, hoe groter het
onderscheidingsvermogen
Aard van de toets:
o Eenzijdige toetsen hebben groter onderscheidingsvermogen dan
tweezijdig
o Parametrische toetsen hebben een groter onderscheidingsvermogen
dan non-parametrische toetsen.
In de praktijk is een onderscheidingsvermogen van 0,80 gewenst en haalbaar.
Tabel 1: Vier mogelijke situaties over het verwerpen van de nulhypothese
(gebaseerd op tabel 5.3 uit van Peet, van den Wittenboer, & Hox)
Daadwerkelijk het
geval
H0 is waar H0 is niet waar
Beslissi H0 verwerpen Fout van de eerste soort: Correcte beslissing:
ng kans α
1 – β (situatie 1)
(situatie 3)
, H0 niet Correcte beslissing: Fout van de tweede
verwerpen soort: kans β
1 – α (situatie 2)
(situatie 4)
Definitie power: Wanneer de kans op een type II fout (fout van de tweede soort
oftewel β) groot is, betekent dit dat het onderscheidingsvermogen of de power
van de toets laag is. De power van een toets wordt gedefinieerd als: de kans dat
de nulhypothese verworpen wordt als de nulhypothese ook daadwerkelijk onjuist
is. De power van een toets moet dus voldoende hoog zijn. Bij een te lage power is
het eigenlijk weinig zinvol om de toets uit te voeren, je hebt dan immers maar
een kleine kans dat je een effect dat daadwerkelijk bestaat ook kunt aantonen. Er
wordt meestal naar gestreefd om een power van 0.80 of hoger te hebben. In
sommige gevallen is dit echter niet mogelijk omdat er dan onrealistisch grote
steekproeven nodig zijn.
Aantekeningen:
2 soorten toetsende statistieken:
Schattingen van populatieparameters:
o Puntschattingen en betrouwbaarheidsintervallen
Toetsingswaarden aangaande hypothesen over populatieparameters:
o Toetsingsgegevens en toetsingsresultaten
Van populatie naar steekproef naar populatie: je observeert een proportie in de
steekproef en doet uitspraken over een proportie in de populatie.
pnoemen we een populatieparameter, ^pnoemen we de schatter van de
populatieparameter
Voor de schatting van de populatieparameter, kan de proportie in de steekproef
worden gebruikt. Die schatting ^pis geen perfecte schatting, maar omgeven door
een mate van onzekerheid.
Over alle mogelijke steekproeven heen, zal de steekproefwaarde gemiddeld
gezien gelijk zijn aan de populatiewaarde.
We gebruiken de steekproefproportie ^p als schatter van de populatieparameter p.
De mate van onzekerheid rondom deze schatting geven we aan met behulp van
een betrouwbaarheidsinterval (BI/CI).
BI: 100(1-α)%-> vaak 95%BI
Alpha is vaak 0.05-> In 5% van de keren maak je dan een fout als je zo'n interval
construeert.
Literatuur:
Hfdst 9: Statistical inference: significance test about hypotheses:
Berekenen minimale steekproefgrootte-> naar boven afronden.
Significantieniveau van 0,05-> als kleiner mag je nulhypothese verwerpen.
Tweezijdige toets: als je niet weet of iets groter of kleiner is, alleen dat het niet
gelijk is aan nulhypothese. Rekening houden met beide staarten van
normaalverdeling. Overschrijdingskans moet je dan verdubbelen.
De tweezijdige toets is robuust, zelfs als de steekproef klein is. Oftewel, hij is niet
gevoelig voor schendingen van de aanname van normale verdeling. Dus ook al is
np minder dan 15, gaat het vaak toch goed als je de normale verdeling gebruikt.
Bij eenzijdige toetsen met kleine steekproeven werkt de toets ook nog steeds
goed als p0 gelijk is aan 0.50.
Je mag de normale toets niet gebruiken bij eenzijdige toetsen met een kleine
steekproef en p0 is niet gelijk aan 0.50. Dan moet je de binomiaaltoets
gebruiken-> gaan we niet behandelen.
T-tabel werkt anders dan z-tabel-> t-waarden staan in de tabel en
overschrijdingskansen staan erboven.
Relatie betrouwbaarheidsinterval en tweezijdig toetsen: als de veronderstelde
gemiddelde buiten het 95% betrouwbaarheidsinterval valt, weet je al dat je de
nulhypothese kan verwerpen.
Aanname normale verdeling: bij tweezijdige toetsen met kleine steekproeven ook
robuust tegen schendingen van de assumptie van normaliteit. Ook als de toets
robuust is, toch goed naar de data kijken.
Stappen van een significantietest bij populatieproportie:
Aannames:
o De data is categorisch
o De data is verzameld door middel van randomisatie
o De steekproefgrootte is groot genoeg dat de steekproefproportie
normaal is. De steekproefproportie is normaal als deze minstens 15
is.
Hypotheses:
, o Nulhypothese: H0: p=p0, waarbij p een waarde tussen 0 en 1 heeft.
o Alternatieve hypothese: Ha: p>p0 of p<p0 (eenzijdig) of p≠p0
(tweezijdig).
Toets statistiek: standaardfout en z-score berekenen
P-waarde: de waarschijnlijkheid dat de test statistiek een waarde
aanneemt zoals de geobserveerde statistiek of een extremere. Aflezen uit
normaalverdeling, bij een kleine p-waarde, is de data tegenstrijdig met de
nulhypothese en support de alternatieve hypothese.
Conclusie: interpreteren van p-waarde. Significantielevel vastgesteld, bijv
op p≤0.05.
Stappen van een significantietest bij een gemiddelde:
Aannames:
o De variabele is kwantitatief
o De dataproductie is gedaan door randomisatie
o De populatiedistributie is normaal.
Hypotheses:
o H0: µ=µ0
o Ha: µ≠µ0 of µ<µ0 of µ>µ0.
Toets statistiek: de afstand tussen het steekproefgemiddelde µ en de
( x−μ 0)
nulhypothese waarde µ0. dit wordt gemeten door t= .
se
P-waarde: waarschijnlijkheid van een test statistiek.
Conclusie: interpretatie van p-waarde.
Het significantieniveau α is gelijk aan de kans van het afwijzen van de
nulhypothese terwijl deze eigenlijk waar is-> Type-I-fout.
De waarschijnlijkheid van een type-II-fout wordt groter naarmate de parameter
dichterbij de nulhypothese komt.
De power van een test: de kans dat de nulhypothese wordt afgewezen, als deze
fout is.
Effectgrootte en het onderscheidingsvermogen van een toets:
Onderscheidingsvermogen: bepaalt of een toets tot een significante uitkomst zal
leiden, ook al is de nulhypothese onjuist.
,Redenering bij een statistische toets is gebaseerd op waarschijnlijkheden,
waarbij we proberen het risico dat we een foute beslissing nemen zo klein
mogelijk te maken.
Type-I-fout wordt veel aandacht aan besteed door middel van significantieniveau
α. Type-II-fout wordt minder aandacht aan besteed in onderzoekspublicaties.
Dit is het onderscheidingsvermogen, of de power, van een statistische toets: de
kans om de nulhypothese te verwerpen wanneer deze daadwerkelijk onwaar is.
De fout bèta is moelijker te bepalen dan de fout alfa. Voor het schatten van het
onderscheidingsvermogen wordt vaak een gespecialiseerd programma gebruikt.
Onderscheidingsvermogen berekenen kan alleen als er een specifieke
alternatieve hypothese is.
Onderscheidingsvermogen wordt beïnvloed door:
Steekproefgrootte: hoe groter de steekproef, hoe groter het
onderscheidingsvermogen.
Significantieniveau: bij een hoger significantieniveau, is het
onderscheidingsvermogen groter.
Effectgrootte: hoe groter het effect, hoe groter het
onderscheidingsvermogen
Aard van de toets:
o Eenzijdige toetsen hebben groter onderscheidingsvermogen dan
tweezijdig
o Parametrische toetsen hebben een groter onderscheidingsvermogen
dan non-parametrische toetsen.
In de praktijk is een onderscheidingsvermogen van 0,80 gewenst en haalbaar.
Tabel 1: Vier mogelijke situaties over het verwerpen van de nulhypothese
(gebaseerd op tabel 5.3 uit van Peet, van den Wittenboer, & Hox)
Daadwerkelijk het
geval
H0 is waar H0 is niet waar
Beslissi H0 verwerpen Fout van de eerste soort: Correcte beslissing:
ng kans α
1 – β (situatie 1)
(situatie 3)
, H0 niet Correcte beslissing: Fout van de tweede
verwerpen soort: kans β
1 – α (situatie 2)
(situatie 4)
Definitie power: Wanneer de kans op een type II fout (fout van de tweede soort
oftewel β) groot is, betekent dit dat het onderscheidingsvermogen of de power
van de toets laag is. De power van een toets wordt gedefinieerd als: de kans dat
de nulhypothese verworpen wordt als de nulhypothese ook daadwerkelijk onjuist
is. De power van een toets moet dus voldoende hoog zijn. Bij een te lage power is
het eigenlijk weinig zinvol om de toets uit te voeren, je hebt dan immers maar
een kleine kans dat je een effect dat daadwerkelijk bestaat ook kunt aantonen. Er
wordt meestal naar gestreefd om een power van 0.80 of hoger te hebben. In
sommige gevallen is dit echter niet mogelijk omdat er dan onrealistisch grote
steekproeven nodig zijn.
Aantekeningen:
2 soorten toetsende statistieken:
Schattingen van populatieparameters:
o Puntschattingen en betrouwbaarheidsintervallen
Toetsingswaarden aangaande hypothesen over populatieparameters:
o Toetsingsgegevens en toetsingsresultaten
Van populatie naar steekproef naar populatie: je observeert een proportie in de
steekproef en doet uitspraken over een proportie in de populatie.
pnoemen we een populatieparameter, ^pnoemen we de schatter van de
populatieparameter
Voor de schatting van de populatieparameter, kan de proportie in de steekproef
worden gebruikt. Die schatting ^pis geen perfecte schatting, maar omgeven door
een mate van onzekerheid.
Over alle mogelijke steekproeven heen, zal de steekproefwaarde gemiddeld
gezien gelijk zijn aan de populatiewaarde.
We gebruiken de steekproefproportie ^p als schatter van de populatieparameter p.
De mate van onzekerheid rondom deze schatting geven we aan met behulp van
een betrouwbaarheidsinterval (BI/CI).
BI: 100(1-α)%-> vaak 95%BI
Alpha is vaak 0.05-> In 5% van de keren maak je dan een fout als je zo'n interval
construeert.