Betrouwbaarheidsintervallen · Hypothesetoetsing · Independent Samples t-toets
Deel 1 – Module 10:
Betrouwbaarheidsintervallen
10.1 Inferentiële statistiek: het grote plaatje
Inferentiële statistiek generaliseert van een steekproef naar een populatie. We schatten
populatieparameters (μ, σ) op basis van steekproefstatistieken (x̄, s). Omdat elke steekproef
iets anders uitpakt, is er altijd steekproefvariatie — en dat maakt een interval informatiever
dan één getal.
Twee kernactiviteiten:
• Populatieparameters schatten — via punt- of intervalschatting
• Hypothesen toetsen — bepalen of data genoeg bewijs leveren om een aanname te
verwerpen
Assumpties: (1) willekeurige steekproef, anders zijn bevindingen niet valide; (2)
steekproevenverdeling van het gemiddelde is bij benadering normaal verdeeld,
gegarandeerd bij n ≥ 30 (centrale limietstelling). De t-toets is robuust bij lichte schendingen,
zolang er geen extreme uitbijters zijn.
🎯 🎯 Aanvulling — De steekproevenverdeling van het gemiddelde (oefenvraag
27)
Als je herhaaldelijk steekproeven trekt van dezelfde grootte n uit dezelfde populatie,
varieert het steekproefgemiddelde x̄ elke keer. De verdeling van al die x̄-waarden heet
de steekproevenverdeling van het gemiddelde (sampling distribution of the mean).
Eigenschappen:
• Gemiddelde van die verdeling = μ (het ware populatiegemiddelde)
• Standaarddeviatie van die verdeling = se = σ/√n (de standaardfout)
• Bij n ≥ 30: verdeling is bij benadering normaal (centrale limietstelling)
Praktisch: 95% van alle steekproefgemiddelden ligt binnen 1,96 × se van μ.
→ Dat is precies de logica achter het 95%-betrouwbaarheidsinterval.
10.2 Puntschatting versus intervalschatting
Een puntschatting (point estimate) is één getal — beste schatting van μ op basis van x̄ .
Eenvoudig, maar geeft geen beeld van de onzekerheid.
Een betrouwbaarheidsinterval (BI) geeft die onzekerheid expliciet: het is een reeks
waarden waarbinnen de ware populatieparameter met een bepaald
betrouwbaarheidsniveau wordt verwacht.
Voorbeeld: exitpoll geeft 18% VVD (puntschatting). Het 95%-BI is [17%; 19%] — foutmarge
±1 procentpunt.
,10.3 Het betrouwbaarheidsinterval berekenen
De formule is altijd dezelfde:
BI = x̄ ± kritieke waarde × standaardfout (se)
Vier stappen:
1. Stap 1 – Neem de puntschatting x̄
2. Stap 2 – Kies het betrouwbaarheidsniveau (bijv. 95%) en zoek de bijbehorende kritieke
waarde
3. Stap 3 – Bereken de standaardfout: se = σ/√n (σ bekend) of se = s/√n (σ onbekend)
4. Stap 4 – BI = x̄ ± kritieke waarde × se → [ondergrens, bovengrens]
10.4 Betrouwbaarheidsniveau, foutenkans en kritieke waarden
Het betrouwbaarheidsniveau (1 – α) is de kans dat het interval de ware μ omvat.
Standaard is 95%, dus α = 0,05. De 5% foutenkans is verdeeld over beide staarten: 2,5%
links en 2,5% rechts → kritieke z = ±1,96.
📌 Kernregel — Kritieke z-waarden (als σ bekend, Tabel A)
90% BI → z = 1,645 (α = 0,10; α/2 = 0,05)
95% BI → z = 1,96 (α = 0,05; α/2 = 0,025) ← meest gebruikt
99% BI → z = 2,576 (α = 0,01; α/2 = 0,005)
Formule (σ bekend): BI = x̄ ± z × (σ / √n)
Formule (σ onbekend): BI = x̄ ± t × (s / √n)
10.5 De t-verdeling: wanneer en waarom?
In de praktijk ken je σ bijna nooit. Zodra je σ schat via s, gebruik je de t-verdeling in plaats
van de normaalverdeling. De t-verdeling heeft dikkere staarten — ze corrigeert voor de
extra onzekerheid van het schatten van σ.
De exacte vorm hangt af van de vrijheidsgraden (df = n – 1). Bij kleine df zijn de staarten
dikker en is de kritieke t groter. Naarmate n groeit, nadert de t-verdeling de
normaalverdeling. Vanaf n > 100 is de kritieke t voor 95% ≈ 1,96.
📌 Kernregel — z of t?
σ bekend (zeldzaam) → z-verdeling (Tabel A) | df niet nodig
σ onbekend (standaard) → t-verdeling (Tabel B) | df = n – 1
NB: bij n > 100 is kritieke t ≈ 1,96 (verschil met z verwaarloosbaar)
NB: bij twee groepen geldt df = n₁ + n₂ – 2
, Tabel B correct gebruiken — kritieke t opzoeken
Oefenvraag 17 toetst dit: voor een 99%-BI met n = 81 is df = 80. In Tabel B zoek je bij df =
80 in de kolom voor het 99%-betrouwbaarheidsniveau (right-tail kans = 0,005) → kritieke t
= 2,639.
Stappenplan om de kritieke t te vinden:
5. Stap 1 – Bepaal df: bij één groep df = n – 1; bij twee groepen df = n₁ + n₂ – 2
6. Stap 2 – Bepaal het betrouwbaarheidsniveau (95% of 99%)
7. Stap 3 – Zoek in Tabel B de rij met jouw df en de kolom met het
betrouwbaarheidsniveau
8. Stap 4 – Let op: Tabel B werkt met right-tail kansen. Voor BI's gebruik je de confidence-
level-kolommen, niet de α-kolom rechtstreeks
🎯 🎯 Tentamelvalkuil — df voor het BI
FOUT: df = n (de meest gemaakte rekenfout)
FOUT: df = n – 2 (dat is voor twee groepen)
JUIST: df = n – 1 bij één groep
JUIST: df = n₁ + n₂ – 2 bij twee onafhankelijke groepen
Voorbeeld (vraag 17): n = 81 → df = 80 → kritieke t bij 99% = 2,639
Voorbeeld (vraag 23): n₁=62, n₂=84 → df = 62+84–2 = 144
10.6 Wat betekent een 95%-BI precies?
μ is een vaste, onbekende waarde — hij ligt óf in het interval, óf niet. De kans zit in de
procedure, niet in de parameter: als je deze methode oneindig herhaalt, bevat 95% van alle
zo berekende intervallen de ware μ.
⚠ Veelgemaakte fout — de interpretatie van het BI
FOUT: "Er is 95% kans dat μ in dit interval ligt."
FOUT: "95% van de respondenten scoort tussen [a] en [b]."
FOUT: "De populatieparameter is μ = x̄ met 95% zekerheid."
JUIST: "We kunnen met 95% zekerheid zeggen dat de werkelijke [variabele] in de
populatie tussen [a] en [b] ligt."
Technisch: op lange termijn bevat 95% van alle berekende BI's de ware μ.
10.7 Breedte van het BI — wat bepaalt de precisie?
Drie factoren bepalen hoe breed of smal een BI is:
Factor Effect op breedte Waarom?
Betrouwbaarheidsniveau ↑ (95% Breder Hogere zekerheid vereist grotere
→ 99%) kritieke waarde
Steekproefgrootte n ↑ Smaller se = s/√n daalt → kleinere foutmarge
Spreiding s ↑ Breder Meer variatie in data → grotere
standaardfout