TEW – 2020/2021
1
, H9 - STEEKPROEVENVERDELING EN
BETROUWBAARHEIDSINTERVALLEN VOOR FRACTIES
9.1 Verdeling van steekproeffracties
Populatie: grote groep waarover we een uitspraak doen onbekende parameter populatiefractie p
Steekproef: selectie van de populatie die we observeren ̂
statistiek: steekproeffractie 𝒑
Steekproevenvariabliteit: andere steekproef van evenveel klanten kan dezelfde waarden opleveren.
Om meer te weten te komen over variabiliteit in steekproeffractie 𝑝̂ , moeten we voorstellen hoe
steekproeffractie kan variëren over alle mogelijke steekproeven we kunnen dit beschrijven met een
histogram
Steekproeffractie: 1 steekproef uit een volledige populatie
Variabiliteit: hoe zou steekproef variëren over alle mogelijke steekproeven?
Simulatie van 10 000 steekproeffracties met 2 uitkomsten: succes/mislukking volgt normale verdeling
• Niet elke steekproef heeft eenzelfde fractie (zie dia 8 h9)
• Meeste steekproeffracties liggen tussen +- 1SD van het gemiddelde
• Histogram toont simulatie van steekproefverdeling van 𝑝̂
Verdeling van de fracties over veel onafhankelijke steekproeven van de populaties =
steekproevenverdeling van de fracties.
Aantal successen kan benaderd worden met binomiaal model en dit kan benaderd worden met de
𝑝𝑞
normale verdeling (p, √ 𝑛 ) zolang np en nq groot
genoeg zijn.
𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑒𝑛 𝑋
Steekproeffractie: = = 𝑝̂
𝑛 𝑛
̂ √𝑝𝑞
Standaarddeviatie: 𝑆𝐷(𝑝) 𝑛
(hoe groter n hoe kleiner SD; voor verdelingen die
klokvorming zijn en gecentreerd rond p kunnen we n
gebruiken om SD te vinden)
9.2 Aannames en voorwaarden
Voorwaarden om normale verdeling te gebruiken:
1. Aanname onafhankelijkheid: steekproefwaarden moeten onafhankelijk zijn van elkaar
2. Aanname steekproefgrootte: n moet voldoende groot zijn
3. Voorwaarde aselecte keuze: Bij data van een experiment moet toekenning van deelnemers aan
groepen aselect gebeurd zijn. Enquête: aselecte steekproef, ander opzet: representatieve data
4. 10% voorwaarde: n mag niet groter zijn dan 10% van populatie (indien steekproef niet met
teruglegging wordt getrokken)
5. Succes/mislukking voorwaarde: aantal successen np en aantal mislukkingen nq minstens 10
2
, 𝑝̂−𝑝
Z-score: 𝑆𝐷(𝑝)
̂
9.3 Betrouwbaarheidsinterval voor een fractie
Als we weten hoeveel steekproeven variëren en vorm van hun verdeling, dan krijgen we een beter beeld
van hoe de echte fractie zal zijn.
• We weten dat steekproevenverdelingsmodel gecentreerd is rond de reële fractie p (maar we
weten p niet) en dat de standaardafwijking gegeven wordt door
• We weten ook door de centrale limietstelling dat de vorm van de steekproevenverdeling Normaal
is en we 𝑝̂ kunnen gebruiken om de standaardfout te berekenen (“schatten”)
̂ = √𝑝̂𝑞̂ met gebruik van 𝑝̂ om een schatting te maken van SD(𝑝̂ )
𝑆𝐸(𝑝) 𝑛
Wanneer we SD van een steekproevenverdeling berekenen noemen we deze de standaardfout
Omdat de verdeling Normaal is kunnen we verwachten dat 95% van alle steekproeven van bijvoorbeeld
3000 Amerikaanse volwassenen een steekproeffractie zou hebben binnen 2SE’s van p. zie vb slide 18
Interpretatie: We kunnen met 95% betrouwbaarheid
stellen dat tussen de 40,4% en 43,6% van de
Amerikaanse volwassenen dacht dat de economie
zou verbeteren
9.4 Wat betekent 95% echt?
• 95% van de steekproef produceert een betrouwbaarheidsinterval waar de echte fractie inzit.
• “We zijn 95% zeker dat de werkelijke fractie in ons interval zit”
• Fracties variëren per steekproef en bevatten ook verschillende betrouwbaarheidsintervallen
• Stel 20 steekproeven: meeste betrouwbaarheidsintervallen bevatten de echte waarde, maar
eentje niet
• “werkt ons interval?” kunnen we nooit weten want we zullen nooit de echte fractie weten van
de hele populatie.
9.5 Aannames en voorwaarden voor berekenen van betrouwbaarheidsinterval
1. Aanname onafhankelijkheid: data moet aselect gekozen zijn
2. 10% voorwaarde: minder dan 10% van populatie
3. Aanname steekproefgrootte: 10 successen en 10 mislukkingen
3