Auteur: Miriam Al-Ankouchi
Student Pedagogische Wetenschappen, Universiteit van Amsterdam (2024/2025)
Deze samenvatting kan je zowel voor je bachelor als pre-master gebruiken!
(Heel veel succes met het tentamen!)
1
, Hoorcollege 1 👩🏻🏫
Enkel herhaling van beschrijvende statistiek
Belangrijke termen van beschrijvende statistiek (herhaling)
Variabele → Waarop respondenten verschillen.
Statistic → waarde die hoort bij je steekproef.
Gemiddelde van je steekproef
Parameter → hoort bij je populatie. Gemiddelde van je populatie
Beschrijvende statistiek → je leert data samenvatten met statistics en het grafisch af te beelden. Je beschrijft
het.
Toetsende statistiek → is het daadwerkelijk zo dat …? Hoe maken ze zo’n beslissing? Je toetst de hypothese.
Steekproevenverdeling → als je heel vaak een steekproef trekt
Populatieverdeling → Hoe de verdeling in de populatie ligt. Dit is meestal onbekend
Steekproeffout → fout tussen de parameter en de statistic
De normale verdeling →
Klokvormig
Symmetrisch
(Gemiddelde) = mediaan = modus
(Gemiddelde) en (standaarddeviatie) bepalen de verdeling
Populatie (parameters) Steekproef (schatters)
Gemiddelde μ ȳ / ̄x
Standaarddeviatie σ s
Proportie p p
̂
Het schatten van populatieparameters
2
,Parameters willen we weten! We zijn niet geïnteresseerd in die ene steekproef die we hebben genomen, maar
we willen het generaliseren naar de populatie. We willen bv alle Nederlandse jongens weten en niet de 30 die je
hebt uitgekozen
‘Statistic’ en ‘parameter’
Tot nu toe doen we alsof de parameters bekend zijn, maar in werkelijkheid zijn de waarden van parameters
bijna altijd onbekend
Parameters worden geschat met behulp van steekproefgegevens
Met andere woorden: ‘statistics’ worden gebruikt om parameters te berekenen. We schatten parameters uit
statistics door gebruik te maken van de steekproevenverdeling
Wat is toetsende statistiek? We beantwoorden inhoudelijke vragen
Beschrijvende statistiek → informatie die je trekt over de steekproef.
Voorbeeld: correlatie, gemiddelde, z-waarde etc. van jouw steekproef
Toetsende statistiek → Hier ga je verder dan de steekproef: je wilt iets zeggen over de hele populatie
(bijvoorbeeld: zijn meisjes in het algemeen slimmer dan jongens?). Maar je hebt alleen gegevens van een kleine
groep. Dus je gebruikt wiskundige tests (zoals een t-toets) om te kijken of het verschil tussen meisjes en
jongens toevallig is of dat het verschil waarschijnlijk ook geldt voor de hele populatie.
Voorbeeld: zijn meisjes slimmer dan jongens?
Je begint altijd met beschrijvende statistiek (bijvoorbeeld gemiddelden), en daarna gebruik je toetsende
statistiek om te testen of dat verschil "echt" is of alleen in jouw steekproef zit.
1. Schattingen van een populatieparameter (zoals gemiddelde of proportie) →
Je wil iets weten over een hele populatie (bijvoorbeeld: hoeveel % is vrouw, of wat is het gemiddelde IQ).
Maar je onderzoekt maar een steekproef (bijvoorbeeld 100 mensen).
Wat je in die steekproef meet, gebruik je om een schatting te maken van het echte getal in de populatie.
Dat noem je een puntschatting – 1 getal.
Zowel gemiddelde als proportie zijn voorbeelden van een puntschatting. Een puntschatting is gewoon één
getal uit jouw steekproef dat je gebruikt om iets te zeggen over de hele populatie.
Voorbeeld:
Je onderzoekt 100 mensen, en 73 daarvan zijn vrouw.
Dan zeg je: de proportie vrouwen = 73%.
Dat is je puntschatting van het percentage vrouwen in de hele populatie.
Maar… je weet het niet zeker!
Want je hebt maar een klein groepje mensen onderzocht, dus:
Er zit onzekerheid in je schatting.
Om die onzekerheid te laten zien, gebruik je puntschatting + betrouwbaarheidsinterval + andere
dingen in die je nog krijgt in de cursus zoals vrijheidsgraden.
Bijvoorbeeld: “We denken dat het percentage vrouwen in de populatie tussen de 68% en 78% ligt (met 95%
zekerheid).”
2. Hypotheses toetsen over de populatie
3
, Je stelt een vraag (hypothese), zoals: Zijn meisjes slimmer dan jongens?
Je gebruikt gegevens uit je steekproef om te kijken of het verschil dat je ziet toevallig is, of echt iets zegt
over de populatie. Dit doe je met een toetsingswaarde, bijvoorbeeld een t-waarde of z-waarde, en je
kijkt naar de p-waarde. Als de p-waarde laag genoeg is (meestal onder 0,05), zeg je: Het verschil is
waarschijnlijk niet toevallig → dus je hypothese klopt (meisjes zijn slimmer, met statistische zekerheid).
Soort toetsende
Wat doe je? Voorbeeld
statistiek
1. Schatten van Je maakt een schatting van het echte 73% vrouwen in steekproef =
populatiegetallen gemiddelde/proportie schatting populatie
2. Toetsen van Je toetst of een verschil/verband echt is of Zijn meisjes écht slimmer dan
hypothesen toeval jongens?
Voorbeeld: in de hoorcollegezaal zijn 100 pow bachelor studenten aanwezig, van wie er 73 vrouw zijn. De
proportie vrouwen is
De 0.73 is een schatting van de proportie die je in de grotere populatie vindt. We willen weten hoe goed is de
schatting (0.73) voor de populatie. Hier heb je toetsende statistiek nodig voor
Proportie in de steekproef (bijvoorbeeld 0,73) Beschrijvende statistiek
P Echte proportie in de populatie (onbekend, te Toetsende statistiek
schatten)
Bijvoorbeeld: Je onderzoekt hoeveel vrouwen er zijn bij een hoorcollege. In een college zijn er toevallig veel
vrouwen → dan is de steekproefproportie Hoger dan de werkelijke proportie P in de hele populatie
studenten.
Maar als je dit bij meerdere colleges onderzoekt, zie je dat:
Soms zijn er meer vrouwen,
Soms minder,
Maar gemiddeld zit het rond de echte proportie P →
Wat is de kern? → Als je heel vaak steekproeven zou nemen, dan krijg je een verdeling van (de gemeten
proportie in je steekproef). Die verdeling ziet eruit als een klokvorm (normale verdeling), en het midden van die
verdeling is de echte populatieproportie P.
Conclusie:
Elke steekproef geeft een iets andere uitkomst , omdat toeval meespeelt.
4
, Maar als je er veel zou nemen, liggen ze gemiddeld rond de populatiewaarde P.
Dat heet de steekproevenverdeling van
→ Er komen veel p ’waardes rondom in t midden. Exact midden gaan we
vanuit dat het de P is. De zit er vaak dichtbij.
Betrouwbaarheidsinterval
Wij gebruiken de steekproefproportie ( ) als schatter van de populatieparameter (P).
Betrouwbaarheidsinterval→ interval van getallen waarbinnen wordt aangenomen dat de waarde van de
parameter zich bevindt. De onzekerheid rondom geven we aan met behulp van het
betrouwbaarheidsinterval.
Voorbeeld: 71 tot 75% van de mensen slaapt minder dan 8 uur per nacht.
Vaak handiger omdat het een foutenmarge aangeeft die de nauwkeurigheid van de puntschatting weergeeft
Een puntschatter → getal dat aangeeft wat de beste schatting is voor de waarde van een parameter
Voorbeeld: 73% van de mensen slaapt minder dan 8 uur per nacht.
Geeft geen informatie over hoe ver/dicht bij de parameter zich vermoedelijk bevindt
Betrouwbaarheidsinterval berekenen
Als je 20 keer een betrouwbaarheidsinterval rekent van
een proportie. In 5% van de gevallen, dus bij 20 zou dat 1
zijn, er 1 populatieparameter niet in het interval ligt. Je
weet nooit bij welke steekproef het klopt of niet. Maar
kans op fout is klein.
Begrijp de alfa
5
, 100 (1-a) % → formule voor het betrouwbaarheidsniveau (hoe zeker je wilt zijn dat je interval de echte
waarde bevat).
α = alpha
(1 – α) is de kans dat je betrouwbaarheidsinterval wél de echte waarde bevat.
100(1 – α) % zet dat om in een percentage
100(1 – α) % is het betrouwbaarheidsniveau van je interval. → Hoe hoger dit is, hoe zekerder, maar ook
breder je interval.
Significantie niveau = α. Zijn synoniemen → = De kans dat je ten onrechte de nulhypothese verwerpt
(dus: je denkt dat er een effect is, terwijl dat eigenlijk niet zo is), OFTEWEL Hoeveel foutmarge je toestaat
(bv. 5%)
→ α = 0,05 → 5% kans op een fout (als niet wordt aangegeven deze aanhouden!)
→
Oké nu je dit begrijpt gaan we door:
1. Begrijp de formule
Deze formule laat zien hoe je een betrouwbaarheidsinterval (BI) berekent rond een steekproefproportie (
), om iets te zeggen over de echte proportie in de populatie (P).
Je wilt weten: "Hoe groot is de kans dat de echte waarde P binnen het interval valt dat je uit je
steekproef hebt berekend?"
2. Interpretatie betrouwbaarheidsinterval
Het betrouwbaarheidsinterval is gebaseerd op vier dingen:
6