& STATISTIEK – KWANTITATIEF
HOORCOLLEGE 1 – Multipele Regressie
Regressiemodel
Padmodel multipele regressie
- Een afhankelijke variabele (Y)
- Een of meerdere onafhankelijke variabelen
(minimaal interval)
- Een of meerdere onafhankelijke variabelen
(dichotoom – ja/nee)
E = meetfouten/errors
Voorbeeld
Onderzoeksvraag: Kunnen we kennis van literatuur bij jongvolwassenen voorspellen met persoons-,
gezins- en schoolkenmerken?
Populatie: jongvolwassenen
Variabelen:
- Afhankelijke variabele Y
o Kennis van literatuur
- Onafhankelijke variabelen X (predictoren)
o Persoonlijke kenmerken (kenmerken ouderlijk huis, kenmerken school)
Multipele regressie algemeen
Onderzoeksvraag: Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere
kenmerken?
Doelen analyse
- Beschrijven lineaire relaties tussen variabelen (regressiemodel)
- Toetsen hypothesen over relaties (significantie) - alleen data wat we nodig hebben
- Kwantificeren van relaties (effectgrootte) – effect relevant of niet
- Kwalificeren van relaties (klein, middelmatig, groot)
- Beoordelen relevantie relaties (subjectief)
- Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
Waarschuwing: doe op basis van statistische samenhang geen uitspraken over causaliteit.
,Variabelen in voorbeeld
Read: Kennis literatuur respondent (Y) - uitkomstmaat
Fath_rd: Kennis literatuur vader (X1)
Moth_rd: Kennis literatuur moeder (X2)
Par_book: Aantal boeken in ouderlijk huis (X3)
Sch_rd: Aandacht voor literatuur school (X4)
Hist_rd: Lezen verleden (X5)
Educ: Opleidingsniveau (X6)
Allemaal zijn minimaal interval meetniveau
Analysetechniek? à multipele lineaire regressieanalyse (MR)
Meetniveau variabelen
Afhankelijke variabele Y
- Kenmerk gemeten op minimaal interval meetniveau.
Onafhankelijke variabele Xk
- Kenmerk gemeten op minimaal interval meetniveau.
- Categorisch kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummyvariabelen.
Regressiemodel (1)
,Regressiemodel (2)
Y = afhankelijke variabele (dependent) à uitkomsten (kennis van de literatuur bij jongvolwassenen)
X = onafhankelijke variabelen (predictors)
B0 = intercept (constant), ook wel a (wat als alle andere X op 0 zouden staan, wat is dan de waarde
die we zouden voorspellen)
B1X1 = regressiecoëfficiënt (slope) à hoe groot is het effect van die eerste voorspellende variabele
(als ik 1 stapte hoger zit in de kennis van de literatuur van de vader (X1), wat voor invloed heeft dat
dan op de verwachte kennis van de literatuur van de jongvolwassenen (Y))
E = voorspellingsfout (error of residual)
Is er spreading? Kunnen we überhaupt
wat verklaren?
Spreidingsdiagram
Y = kennis van literatuur van jongvolwassenen
X = kennis van literatuur van de moeder
Positieve associatie.
Positieve regressielijn.
Vergelijking voor enkelvoudige regressie
1. Intercept of constante (B0 = snijpunt met de
Y-as)
2. Regressiecoëfficiënt (B1 = moeder heeft 1
stapte meer van literatuur, dan gaat Y 1 stapje
omhoog)
, Regressiecoëfficiënten
Intercept
b0 = 5 b0 = 5 b0 = 5
Richting verband
b1 = 0.5 b1 = -0.5 b1 = 0
(positief) (negatief)
Interpretatie b1-waarde
De verandering in Y(dakje) bij toename van één eenheid in X.
Kleinste kwadraten criterium
Best passende rechte lijn
De lijn waarbij voorspellingsfout (error) zo klein mogelijk is.
Voor elke respondent j:
- Geobserveerde Yj
- Geschatte Y(dakje)j
- Voorspellingsfout Ej = Yj – Y(dakje)j
De voorspellingsfout is de afstand tussen de
geobserveerde waarde en de voorspelde
waarde.
Positieve e boven de lijn; onderschatting
door model
Negatieve e onder de lijn; overschatting door
model
Residuen E
In welk figuur zijn residuen klein en waar zijn ze groot? Kleiner links, groter rechts
Waar is de voorspelling nauwkeuriger? Links (kleine residuen, kleine meetfouten)