Multipele regressie algemeen
Onderzoeksvraag
o Kunnen we iemands waarde op een kernmerk (score op het gene wat ik wil verklaren
(bijv. schoolprestatie of kennis over iets)) voorspellen met kennis over andere
kenmerken (bijv. gezinssituatie, sociaal economische status)?
Doelen analyse
o Beschrijven lineaire relaties tussen variabelen (regressiemodel)
o Toetsen hypothesen over relaties (significantie)
Is t relevant?
o Kwantificeren van relaties (effectgrootte)
Is t effect groot genoeg?
o Kwalificeren van relaties (klein, middelmatig, groot)
Kleine verbetering kan op sommige vlakken niks boeien maar op andere vlakken
heel interessant zijn (is t in de situatie relevant?)
o Beoordelen relevantie relaties (subjectief)
Is t interessant?
o Voorspellen van iemands waarde met regressiemodel (puntschatting en
intervalschatting)
Waarschuwing
o Doe op basis van statistische samenhang geen uitspraken over causaliteit
Terugblikje van mezelf over meetniveaus (beste naar slechtste):
1. Ratio
2. Interval
3. Ordinaal
4. Nominaal
Meetniveau variabelen
Afhankelijke variabele Y
o Minimaal interval meetniveau
Meetniveau onafhankelijke variabelen X
o Minimaal interval meetniveau
o Of Categorisch kenmerk met 2 categorieën: nominaal meetniveau met 2 categorieën
noemen we dichotoom
o Of categorisch kenmerk met meer dan 2 categorieën: nominaal/ordinaal meetniveau
wordt omgezet in dummyvariabelen (later meer uitleg)
,Regressiemodel
Padmodel multipele regressie
1 afhankelijke variabele (Y)
1 of meerdere onafhankelijke variabelen (X)
o minimaal interval of dichotoom (2 categorieën)
meetniveau
E = meetfouten
o Nodig: Vergelijken model en geobserveerde data
o Niet nodig: Bij pure voorspellingen
Vergelijking Y
Observatie
o Uitkomst (Y) = model (X) + voorspellingsfout (E)
Voorspellen
o Geschatte uitkomst (^Y ) = model (X)
Y = b0 + b1X1 + … + b6X6 + E
b0 = intercept (constante), (y = a + bx)
b1 = regressiecoëfficient (slope), (y = a + bx)
Voorspellingsfout E = geobserveerde Y – geschatte ^Y
E = afstand tussen geobserveerde waarde en voorspelde waarde
Goodness-of-fit (docent: formules hoef je niet uit je hoofd te kennen (formuleblad), maar wel
herkennen waar het vandaan komt)
Beste model?
o Het model (regressielijn) met kleinste residuele kwadratensom
Bepalen Goodness-of-fit (R2)
o Vergelijking (ratio) van lineair model (regressielijn) met basismodel (basislijn)
Basismodel: we hebben alleen uitkomsten voor de rest geen informatie, onze
voorspelling is dan het gemiddelde van de uitkomsten die we al wel hebben
R2 = 1 je kan het perfect verklaren (gebeurd eigenlijk nooit, 0,3 of 0,5 is in sociale wetenschappen al
echt een goede score)
, Toetsen R2
Statische hypothesen:
o H0: R2 = 0
Dit model verklaard niks beter dan het basismodel, geen verklaarde variatie
o Ha: R2 > 0
Het regressiemodel verklaard variatie in Y
Toets voor R2
o Met F –toets beoordeel je statistische significantie (a = .05).
Toetsen B (b1, b2, b3, etc)
Alternatieve hypothese: B > 0 of B < 0 het effect van X op Y
o H0: B=0
Dit model verklaard niks beter dan het basismodel, geen verklaarde variatie
o Ha: B≠0
Aannames regressiemodel
1. De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar
2. Specificatie verklaringsmodel
3. De variabelen meten een begrip op interval/ ratio meetniveau (uitzondering: dummy’s)
4. Er is een lineaire relatie tussen de variabelen
5. Er zijn geen uitschieters
6. Per X-waarde is de spreiding in Y-scores gelijk(dit wordt ook wel homoscedasticiteit genoemd)
7. Per X-waarde zijn de Y-scores normaal verdeeld
8. Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen (dit wordt ook wel
multicollineariteit genoemd)
o Bijv: je neemt leeftijd en werkervaring in jaren beide als onafhankelijke variabelen, het is
vrij vanzelfsprekend dat iemand die ouder is ook meer jaren werkervaring heeft