Hoorcollege 1: General Lineair Model
Voorbeeld
Vijf onderzoeksvragen over de lichaamslengte van Nederlandse middelbare scholieren
1. Is de gemiddelde lengte 170 cm?
2. Wat is het lengteverschil tussen jongens en meisjes?
3. Wat is het groeitempo per maand?
4. Wat is het lengteverschil tussen jongens en meisjes na correctie voor leeftijd?
5. Is het groeitempo hetzelfde voor jongens en meisjes?
Steekproef 100 scholieren (n = 100)
o 50 jongens, 50 meisjes
o Leeftijd 12 tot 18 jaar
Variabelen (meetniveau)
o Afhankelijke variabele: lengte in centimeters (ratio)
o Onafhankelijke variabelen:
Groepsvariabele (F): geslacht, met 1 = jongen en 2 = meisje
(nominaal/dichotoom)
Interval variabele X: leeftijd, gemeten in maanden (ratio)
General Lineair Model
= Statistische technieken voor de vijf onderzoeksvragen gegeven de verzamelde gegevens (meetniveau
variabelen)
1. Is de gemiddelde lengte 170 cm?
One-Sample t-test voor toetsen van één gemiddelde
2. Wat is lengteverschil tussen jongens en meisjes?
Independent-Samples t-test voor toetsen verschil twee gemiddelden
3. Wat is het groeitempo per maand?
Enkelvoudige regressieanalyse voor het toetsen van invloed van X op Y
4. Wat is lengteverschil tussen jongens en meisjes na correctie voor leeftijd?
ANCOVA voor toetsen verschil gemiddelden gecorrigeerd voor covariaat
o ANCOVA: Vergelijken van groepen waarbij er sprake is van een derde variabele
waarvoor we corrigeren, namelijk de covariaat. Eerlijkere vergelijking voor jongens
en meisjes op basis van leeftijd.
5. Is het groeitempo hetzelfde voor jongens en meisjes?
ANCOVA met interactie voor toetsen van homogene regressielijnen (het bekijken van de
interactie binnen de ANCOVA.
→ Al deze technieken zijn bijzondere gevallen van het General Linear Model (GLM)
,General Linear Model (GLM)
= Een model voor het verklaren van een afhankelijke variabele. Op basis van lineaire relaties. In dit
geval hebben we data (de lengte) en de willen we verklaren op basis van predictoren (onafhankelijke
predictoren).
Data = Model + Error (voorspellingsfout)
Y = ꞵ0 + ꞵ1X1 + … + ꞵnXn + e
In woorden: Een afhankelijke variabele Y (minimaal interval) die kan worden verklaard door
een lineaire combinatie van predictoren (lineair model).
GLM is het onderliggend model voor bijvoorbeeld de t-toets, ANOVA, ANCOVA, multipele
regressie.
Schatting van parameters met kleinste kwadraten methode (resulteert in een zo klein
mogelijke schattingsfout).
Voor toetsing parameters geldt de voorwaarde van onafhankelijke steekproeven (aselecte
steekproef)
Statistische assumpties voor schatting en toetsing:
o Normaalverdeelde error (residuen)
o Homoscedasticiteit (gelijke varianties)
,Toetsen van gemiddelde van één groep (Y) - One-sample t-test
Onderzoeksvraag 1: Is de gemiddelde lengte 170 cm?
Nulhypothese toetsing (NHST)
1. Formuleer de nulhypothese en alternatieve hypothese
2. Stel significantieniveau α vast
o Alpha (𝛼): Wat aangeeft wat de maximale kans is op het maken van een fout. Het gaat
dan om een verkeerde conclusie met betrekking tot de nulhypothese. Bij een alpha van
0.05 tellen we feitelijk dat 1/20 kans wordt toegestaan op het verkeerd verwerpen van
de nulhypothese.
3. Bereken de toetsingsgrootheid (= steekproef resultaat) en bepaal de overschrijdingskans 𝑝 (=
kans op dat steekproefresultaat onder de aanname dat de nulhypothese juist is), en bereken het
betrouwbaarheidsinterval
4. Beslissing:
o als 𝑝 > 𝛼, dan H0 niet verwerpen en als 𝑝 ≤ 𝛼, dan H0 verwerpen
o als testwaarde (test value) binnen het passende betrouwbaarheidsinterval, dan H0 niet
verwerpen en als testwaarde buiten passende betrouwbaarheidsinterval, dan H 0
verwerpen
Nulhypothese, significantieniveau
H0: populatiegemiddelde 𝜇 is gelijk aan testwaarde 𝜇0
o H0: 𝜇 − 𝜇0 = 0 (nulhypothese)
o 𝐻1: 𝜇 – 𝜇0 ≠ 0 (alternatieve hypothese)
→ Ongerichte alternatieve hypothese tweezijdige toetsing
→ Of een gerichte alternatieve hypothese (< of >), dit is een tweezijdige toetsing en zorgt
voor meer power.
Significantieniveau α = 5% (0.05)
t-toets voor gemiddelde
, Standaardfout (SE), toetsingsgrootheid (t), overschrijdingskans (p) en betrouwbaarheidsinterval
Descriptives: Beschrijvende statistieken
SD: Standaardafwijking
SE: Standaard Error = Spreiding van steekproefgemiddelden (bij oneindig veel steekproeven
uit dezelfde populatie).
→ Bij grote steekproeven heb je een relatief kleine SE, omdat de kans op een fout kleiner is.
Coefficient of variation: Gestandaardiseerde spreiding.
One Sample T-Test
T-toets (toetsingsgrootheid): Steekproefresultaat vergeleken met de testwaarde geeft de
toetsingsgrootheid.
df (vrijheidsschade) = 99 = n – 1.
p (overschreidingskans) < .001, dus p < 𝛼 (.05) → Verwerpen van H0
Conclusie
Het populatiegemiddelde van de lichaamslengte van de scholieren in Nederland is niet gelijk aan 170
centimeter.
Betrouwbaarheidsinterval
= Het gemiddelde verschil
Het werkelijke verschil tussen de testwaarde (test value) en het populatiegemiddelde ligt, op
basis van deze steekproefgegevens, met een betrouwbaarheid van 95% tussen -5.12 en -1.50.
Het populatiegemiddelde ligt, op basis van deze steekproefgegevens, met een betrouwbaarheid
van 95% tussen 164.88 (= 170 - 5.12) en 168.50 (= 170 – 1.50) cm.
→ 95%-betrouwbaarheidsinterval populatiegemiddelde: [164.88, 168.50]
→ Intervalniveau wat in zijn geheel kleiner is dan 170 cm.