1.1 Hoorcollege: Lineaire multipele regressie
Multipele regressie - twee of meer verklarende/ onafhankelijke variabelen (X) worden gebruikt om
de afhankelijke variabele (Y) te voorspellen of verklaren.
Y = afhankelijke variabelen
X = onafhankelijke variabelen predictoren
E = error = overige invloeden
Voorbeeld:
Y = leesvaardigheid/ kennis literatuur
X = persoonlijke kenmerken, kenmerken ouderlijk huis, kenmerken school, etc
Tussen verschillende predictoren bestaan relaties. We kunnen de samenhang van alle predictoren
bekijken op de invloed van leesvaardigheid multipele regressie analyse.
Bij statistische toetsen moeten we nagaan of een resultaat een toevallig resultaat of een
systematische resultaat is.
Type onderzoek dat verband houdt met multipele regressie is correlationeel.
Correlationeel onderzoek doet geen uitspraak over causale relatie. We voorstellen bv dat X van
invloed is op Y, maar we mogen er geen uitspraak over doen. Het is wel een ondersteuning voor een
eventuele causale relatie.
Meetniveau variabelen
Meetniveaus:
- Nominaal: onderverdeeld in categorieën waaraan een getalsmatige code (willekeurig) aan
toegekend kan worden. Bijv. man = 0, vrouw = 1
- Ordinaal
- Interval
- Ratio
Bij multipele regressie gaat het om minimaal interval variabelen (geen categorieën te
onderscheiden).
Afhankelijke variabele Y:
- Continu kenmerk gemeten op minimaal interval meetniveau
Onafhankelijke variabelen X:
- Continu of discreet kenmerk gemeten op minimaal interval meetniveau
- Categorisch kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën (nominaal meetniveau wordt omgezet
in dummyvariabelen).
Sekse = dichotome variabele (mag dus ook gebruikt worden bij multipele regressie).
Noord, West, Oost, Zuid = nominaal (meer kenmerken) omzetting naar dummyvariabelen (zie
week 2).
, We gaan er vanuit dat er een lineaire (rechtlijnig) verband is, we gaan ervanuit dat de relatie tussen
de predictoren en de afhankelijke variabelen lineair is.
Regressiemodel
Modelvergelijking
Vergelijking voor uitkomst Y
Uitkomst (Y) = model (X) + voorspellingsfout
Regressievergelijking
Regressie vergelijking stelt ons in staat een voorspelling te
doen van Y gebaseerd op het model. Het gaat dus niet over Y maar over de geschatte Y (^Y)
regressievergelijking.
Geschatte uitkomst (Y^) = model (X)
Y = B0 +B1X1 + … +B6X6 +E
(we hebben in het geval van het voorbeeld 6 onafhankelijke variabelen).
B0 = intercept
B = regressiecoëfficient - reflecteert de relatie tussen de betreffende predictor en de afhankelijke
variabele (Y). B kunnen we interpreteren als het effect (B klein = klein effect, B groot = groot effect).
Wij moeten de B kunnen invullen en begrijpen.
Hoge X = zal meer bijdragen aan Y.
Lage X = zal minder bijdragen aan Y.
Kleinste kwadraten criterium = procedure die ertoe lijdt dat de lijn de beste voorspelling geeft, de
lijn resulteert in de kleinst mogelijke error/ voorspellingsfout (kleinst mogelijke E).
Enkelvoudige regressie lineaire lijn: ^Y = B0 + B1X1
Vergelijking voor een observatie: Y = B0 + B1X1 + E
Regressie coëfficiënt (B1): de verandering van ^Y per één eenheid van X.
Onder de H0 verstellen we bij multipele regressie geen verband we kijken of B verschilt van 0. We gaan
kijken of het vervolgens zo afwijkt van 0 dat het significant is.
Geobserveerde Y zijn de punten, geschatte ^ Y is de lijn.
Alle residuen kwadrateren en optellen som gekwadrateerde residuen het kleinste = kleinste kwadraten
criterium.
SPSS:
B0 = constant B
B1 = Educ B (in dit geval gaan we ervan uit dat educatie een interval variabele is, dit is het geval bij ‘aantal
jaar educatie’).
^Y = 0.25 + 0.46 * Educ (voorspelde Y)
Y = 0.25 +0.46 * Educ + E (geobserveerde Y)
Goodness-of-fit
Hoe goed is het model met de kleinste residuele kwadratensom?
Hoe goed past mijn model R2
We proberen de spreiding in de afhankelijke variabele te verklaren (dit drukken we uit in proportie
verklaarde variantie R2).