Modellen 2
College 1 Regressieanalyse
Enkelvoudige regressieanalyse: INT INT
Multipele regressieanalyse: INT + INT INT
1. Lineaire relaties
Pearson correlatie (= r) = hoe sterk is de lineaire relatie tussen 2 variabelen.
p-waarde: is de relatie significant?
Nulhypothese en alternatieve hypothese opstellen (H0: = 0 versus Ha: ≠
0).
“De kans om een uitkomst te vinden zo extreem of nog extremer dan het
gevonden effect, als H0 waar zou zijn.”
p < α (=significantieniveau): er lijkt bewijs tegen de nulhypothese
relatie is significant.
r2 = gemeenschappelijke variantie tussen variabelen.
Lijn kiezen waar de som van de gekwadrateerde residuen zo klein mogelijk is.
2. Statistisch model
Relatie tussen variabelen in de populatie: yi = β0 + β1xi + i
Geschatte regressielijn: ^y i=b 0 +b1 xi (b 0 = intercept en b 1 = helling).
Homoscedasticiteit = verticale spreiding is voor ongeveer alle waarden van x
gelijk.
3. SPSS-analyse
p-waarde b 1: is het een significante voorspeller?
Beta = Waarden van coëfficiënten als alle variabelen gestandaardiseerd zijn.
Bij 1 voorspeller: beta = correlatie.
4. Verklaarde variantie
R = correlatie tussen Y en alle voorspellers.
R2 = verklaarde variantie = hoe groot deel van de waardes van Y
kunnen voorspeld worden door X.
5. Assumpties
Bij regressieananalyse:
1. Relatie y en x1, x2, x3 en xetc. is lineair spreidingsdiagram.
, 2. Residuen normaal verdeeld met gemiddelde 0 histogram.
3. Homoscedasticiteit - variantie van residuen is constant voor alle combinaties
van waarden voorspellers spreidingsdiagram.
4. Residuen zijn onafhankelijk (random sample).
Als de assumpties niet op lijken te gaan, minder stellige uitspraken doen.
Of: transformatie van de voorspeller of robuuste versie van regressie.
6. Voorbeeld met 4 voorspellers
Hypotheses F-toets:
H0: alle populatie regressiecoëfficiënten van voorspellers gelijk 0 (H 0: R2 =
0)
Ha: minstens één populatie regressiecoëfficiënt ongelijk 0 (H a: R2 > 0)
Voorspeller niet significant: 1) geen relatie in populatie, of 2) te weinig power, of
3) variantie voorspeller overlapt met variantie andere voorspellers
7. Afwijkingen in data + mogelijke oplossingen
Uitbijters weglaten als Cook’s distance > 4/N of Gest. DfFit > 1 of < -1.
Relatie niet-lineair regressieanalyse met kwadratische term.
Meerdere groepen groepen apart analyseren.
Heteroscedasticiteit regressieanalyse op basis van weighted least squares.
Multicollineairiteit: sterke correlatie voorspellers bij VIF > 10 (VIF < 2,5 geen
zorgen).
College 2 Multivariate analyse
1. Terminologie
Steekproef heb je tot je beschikking en gebruik je om iets te kunnen zeggen
over de populatie.
Met statistiek (van je steekproef) probeer je iets te zeggen over de parameter
(van de hele populatie).
Beschrijvende statistiek gebruik je om de steekproefdata samen te vatten en
inferentiële (toetsende) statistiek gebruik je om kansuitspraken over de
parameters te doen (door toetsen van hypotheses of
betrouwbaarheidsintervallen).
2. Van onderzoeksvraag naar statistisch model
Onderzoeksvraag over groepsverschillen: t-toetsen, variantieanalyse.
Onderzoeksvraag over voorspellen: lineaire regressieanalyse, logistische
regressieanalyse.