Hoorcollege 1 – Kwantitatieve analysetechnieken
Onderwerpen:
- General Linear Model: model waarbij de afhankelijke variabele continue variabele
is en onafhankelijke variabele combinatie van interval/ratio/nominaal/dichotoom
- Toetsen van gemiddelde één groep (Y)
- Toetsen van verschil tussen gemiddelden van twee groepen (F)
- Toetsen van invloed van X (interval) op Y
- Toets voor vergelijken twee groepen (F) gecorrigeerd voor X op Y
- Toets voor interactie-effect F*X op Y
Voorbeeld:
- Vijf onderzoeksvragen over de lichaamslengte van Nederlandse middelbare
scholieren
1. Is de gemiddelde lengte 170 cm?
2. Wat is het lengteverschil tussen jongens en meisjes?
3. Wat is het groeitempo per maand?
4. Wat is het lengteverschil tussen jongens en meisjes na correctie voor leeftijd?
5. Is het groeitempo hetzelfde voor jongens en meisjes?
- Steekproef 100 scholieren (n = 100)
o 50 jongens, 50 meisjes
o Leeftijd 12 tot 18 jaar
- Variabelen (meetniveau)
o Afhankelijke variabele: lengte in centimeters (ratio)
o Onafhankelijke variabelen:
▪ Groepsvariabele (F): geslacht, met 1 = jongen en 2 = meisje
(nominaal/dichotoom)
▪ Interval variabele X: leeftijd, gemeten in maanden (ratio)
General Linear Model
General Linear Model:
- Statistische technieken voor de vijf onderzoeksvragen gegeven de verzamelde
gegevens
1. Is de gemiddelde lengte 170 cm?
➔ One-Sample t-test voor toetsen van één gemiddelde
2. Wat is lengteverschil tussen jongens en meisjes?
➔ Independent-Samples t-test voor toetsen verschil twee gemiddelden
3. Wat is het groeitempo per maand?
➔ Regressieanalyse voor het toetsen van invloed van X op Y
4. Wat is lengteverschil tussen jongens en meisjes na correctie voor leeftijd?
➔ ANCOVA voor toetsen verschil gemiddelden gecorrigeerd voor covariaat
5. Is het groeitempo hetzelfde voor jongens en meisjes?
➔ ANCOVA met interactie voor toetsen van homogene regressielijnen
- Al deze technieken zijn bijzondere gevallen van het General Linear Model (GLM)
➔ Algemene model en alle specifieke situaties vallen hieronder
Toetsen gemiddelde één groep
One-sample t-test:
- Onderzoeksvraag 1: is de gemiddelde lengte 170 cm?
1
,Nulhypothese toetsing:
1. Formuleer de nulhypothese en stel significantieniveau α vast
2. Bereken de toetsingsgrootheid en bepaal de overschrijdingskans, en bereken het
betrouwbaarheidsinterval
3. Beslissing:
o Als p > α, dan H0 niet verwerpen en als p α, dan H0 verwerpen
o Als testwaarde (test value) binnen passende betrouwbaarheidsinterval, dan H0
niet verwerpen en als testwaarde buiten passende betrouwbaarheidsinterval,
dan H0 verwerpen
Nulhypothese, significantieniveau:
- H0 : populatiegemiddelde 𝜇 is gelijk aan testwaarde 𝜇0
o Ongerichte alternatieve hypothese, want symbool i.p.v. < of >
➔ Tweezijdig toetsen
o Tweezijdige overschrijdingskans is altijd in SPSS, heb je een gerichte
alternatieve hypothese, moet je de p-waarde door 2 delen
- Significantieniveau α
o 5%
Standaardfout SE en toetsingsgrootheid t:
- Standaardfout is de gemiddelde fout bij het schatten van het gemiddelde bij steekproef
van in dit geval 100 eenheden
Beslissing met overschrijdingskans p:
➔ Verwerp H0
- Conclusie: Het populatiegemiddelde van de lichaamslengte van de scholieren in
Nederland is niet gelijk aan 170 centimeter
2
,Betrouwbaarheidsinterval:
- Het werkelijke verschil tussen de testwaarde (test value) en het populatiegemiddelde
ligt, op basis van deze steekproefgegevens, met een betrouwbaarheid van 95% tussen
-5.12 en -1.50
- Het populatiegemiddelde ligt, op basis van deze steekproefgegevens, met een
betrouwbaarheid van 95% tussen 164.88 (= 170 - 5.12) en 168.50 (= 170 – 1.50) cm
- 95%-betrouwbaarheidsinterval populatiegemiddelde: [164.88, 168.50]
Interpretatie 95% betrouwbaarheidsinterval:
- Betekenis 95% BTI: Voor een gerealiseerd 95% BTI geldt dat het met 95%
betrouwbaarheid het werkelijke verschil tussen de testwaarde en het
populatiegemiddelde omvat.
Beslissing betrouwbaarheidsinterval:
- Het 95%-betrouwbaarheidsinterval voor het verschil tussen de testwaarde en het
populatiegemiddelde [-5,12, -1,50] bevat de waarde 0 (= geen verschil) niet.
➔ Verwerp H0
- Conclusie: Het populatiegemiddelde van de lichaamslengte van de scholieren in
Nederland is niet gelijk aan 170 centimeter
General Linear Model:
- Onderzoeksvraag 1: is de gemiddelde lengte 170 centimeter?
Toets voor gemiddelde in GLM:
3
, Regressiemodel in GLM:
- Regressievergelijking
- b0 is de gemiddelde lengte in de steekproef
ANOVA tabel:
- Het intercept wijkt significant af van 0, 𝐹 = 33377.5, 𝑝 < .001
Regressiecoëfficiënten (Parameter estimates):
- 𝐻0: 𝑏0 = 0
- Het steekproefgemiddelde is 166.69 cm
- De standaardfout van het steekproefgemiddelde is 0.912
- 𝑡 = 166.69 : 0.912 = 182.695, 𝑝 < .001 → verwerp H0
- 95% betrouwbaarheidsinterval: [164.88, 168.50]
- Conclusie: het populatiegemiddelde van de lichaamslengte van de scholieren in
Nederland is niet gelijk aan 170 centimeter
Verschil tussen groepen
Independent-Samples t-test:
- Onderzoeksvraag 2: wat is het lengteverschil tussen jongens en meisjes?
Nulhypothese en significantieniveau:
- Populatiegemiddelden van jongens en meisjes zijn gelijk
- Significantieniveau α
o 5%
4
Onderwerpen:
- General Linear Model: model waarbij de afhankelijke variabele continue variabele
is en onafhankelijke variabele combinatie van interval/ratio/nominaal/dichotoom
- Toetsen van gemiddelde één groep (Y)
- Toetsen van verschil tussen gemiddelden van twee groepen (F)
- Toetsen van invloed van X (interval) op Y
- Toets voor vergelijken twee groepen (F) gecorrigeerd voor X op Y
- Toets voor interactie-effect F*X op Y
Voorbeeld:
- Vijf onderzoeksvragen over de lichaamslengte van Nederlandse middelbare
scholieren
1. Is de gemiddelde lengte 170 cm?
2. Wat is het lengteverschil tussen jongens en meisjes?
3. Wat is het groeitempo per maand?
4. Wat is het lengteverschil tussen jongens en meisjes na correctie voor leeftijd?
5. Is het groeitempo hetzelfde voor jongens en meisjes?
- Steekproef 100 scholieren (n = 100)
o 50 jongens, 50 meisjes
o Leeftijd 12 tot 18 jaar
- Variabelen (meetniveau)
o Afhankelijke variabele: lengte in centimeters (ratio)
o Onafhankelijke variabelen:
▪ Groepsvariabele (F): geslacht, met 1 = jongen en 2 = meisje
(nominaal/dichotoom)
▪ Interval variabele X: leeftijd, gemeten in maanden (ratio)
General Linear Model
General Linear Model:
- Statistische technieken voor de vijf onderzoeksvragen gegeven de verzamelde
gegevens
1. Is de gemiddelde lengte 170 cm?
➔ One-Sample t-test voor toetsen van één gemiddelde
2. Wat is lengteverschil tussen jongens en meisjes?
➔ Independent-Samples t-test voor toetsen verschil twee gemiddelden
3. Wat is het groeitempo per maand?
➔ Regressieanalyse voor het toetsen van invloed van X op Y
4. Wat is lengteverschil tussen jongens en meisjes na correctie voor leeftijd?
➔ ANCOVA voor toetsen verschil gemiddelden gecorrigeerd voor covariaat
5. Is het groeitempo hetzelfde voor jongens en meisjes?
➔ ANCOVA met interactie voor toetsen van homogene regressielijnen
- Al deze technieken zijn bijzondere gevallen van het General Linear Model (GLM)
➔ Algemene model en alle specifieke situaties vallen hieronder
Toetsen gemiddelde één groep
One-sample t-test:
- Onderzoeksvraag 1: is de gemiddelde lengte 170 cm?
1
,Nulhypothese toetsing:
1. Formuleer de nulhypothese en stel significantieniveau α vast
2. Bereken de toetsingsgrootheid en bepaal de overschrijdingskans, en bereken het
betrouwbaarheidsinterval
3. Beslissing:
o Als p > α, dan H0 niet verwerpen en als p α, dan H0 verwerpen
o Als testwaarde (test value) binnen passende betrouwbaarheidsinterval, dan H0
niet verwerpen en als testwaarde buiten passende betrouwbaarheidsinterval,
dan H0 verwerpen
Nulhypothese, significantieniveau:
- H0 : populatiegemiddelde 𝜇 is gelijk aan testwaarde 𝜇0
o Ongerichte alternatieve hypothese, want symbool i.p.v. < of >
➔ Tweezijdig toetsen
o Tweezijdige overschrijdingskans is altijd in SPSS, heb je een gerichte
alternatieve hypothese, moet je de p-waarde door 2 delen
- Significantieniveau α
o 5%
Standaardfout SE en toetsingsgrootheid t:
- Standaardfout is de gemiddelde fout bij het schatten van het gemiddelde bij steekproef
van in dit geval 100 eenheden
Beslissing met overschrijdingskans p:
➔ Verwerp H0
- Conclusie: Het populatiegemiddelde van de lichaamslengte van de scholieren in
Nederland is niet gelijk aan 170 centimeter
2
,Betrouwbaarheidsinterval:
- Het werkelijke verschil tussen de testwaarde (test value) en het populatiegemiddelde
ligt, op basis van deze steekproefgegevens, met een betrouwbaarheid van 95% tussen
-5.12 en -1.50
- Het populatiegemiddelde ligt, op basis van deze steekproefgegevens, met een
betrouwbaarheid van 95% tussen 164.88 (= 170 - 5.12) en 168.50 (= 170 – 1.50) cm
- 95%-betrouwbaarheidsinterval populatiegemiddelde: [164.88, 168.50]
Interpretatie 95% betrouwbaarheidsinterval:
- Betekenis 95% BTI: Voor een gerealiseerd 95% BTI geldt dat het met 95%
betrouwbaarheid het werkelijke verschil tussen de testwaarde en het
populatiegemiddelde omvat.
Beslissing betrouwbaarheidsinterval:
- Het 95%-betrouwbaarheidsinterval voor het verschil tussen de testwaarde en het
populatiegemiddelde [-5,12, -1,50] bevat de waarde 0 (= geen verschil) niet.
➔ Verwerp H0
- Conclusie: Het populatiegemiddelde van de lichaamslengte van de scholieren in
Nederland is niet gelijk aan 170 centimeter
General Linear Model:
- Onderzoeksvraag 1: is de gemiddelde lengte 170 centimeter?
Toets voor gemiddelde in GLM:
3
, Regressiemodel in GLM:
- Regressievergelijking
- b0 is de gemiddelde lengte in de steekproef
ANOVA tabel:
- Het intercept wijkt significant af van 0, 𝐹 = 33377.5, 𝑝 < .001
Regressiecoëfficiënten (Parameter estimates):
- 𝐻0: 𝑏0 = 0
- Het steekproefgemiddelde is 166.69 cm
- De standaardfout van het steekproefgemiddelde is 0.912
- 𝑡 = 166.69 : 0.912 = 182.695, 𝑝 < .001 → verwerp H0
- 95% betrouwbaarheidsinterval: [164.88, 168.50]
- Conclusie: het populatiegemiddelde van de lichaamslengte van de scholieren in
Nederland is niet gelijk aan 170 centimeter
Verschil tussen groepen
Independent-Samples t-test:
- Onderzoeksvraag 2: wat is het lengteverschil tussen jongens en meisjes?
Nulhypothese en significantieniveau:
- Populatiegemiddelden van jongens en meisjes zijn gelijk
- Significantieniveau α
o 5%
4