1 - Multipele regressie analyse
Enkelvoudige regressie
Meervoudige regressie
Assumpties multipele regressie
Output JASP
R²
Hypothesen bij multipele regressie
F-toets
Betrouwbaarheidsintervallen voor de regressiecoëfficiënten
Hiërarchische regressie
Dummyvariabelen
Dummy’s in JASP:
Output met dummy’s interpreteren
Bayesiaanse evaluatie
Enkelvoudige regressie
(HC, Grasple VK03 & VK04)
Enkelvoudige regressie - Een statistische methode om de lineaire relatie tussen één afhankelijke variabele en één
onafhankelijke variabele te analyseren en te voorspellen.
Regressielijn - Een rechte lijn in een spreidingsdiagram die de relatie tussen twee variabelen weergeeft door zo
dicht mogelijk bij alle datapunten te liggen (least squares regression).
Least squares regression (kleinste-kwadrantenmethode) - Het maken van de best passende regressielijn door
een set datapunten door de som van de gekwadrateerde afstanden (residuen) tussen de datapunten en de lijn
te minimaliseren.
Residuen (of voorspellingsfout) - De afstand tussen de werkelijke waarde van y en de voorspelde waarde
van y.
We moeten de residuen kwadrateren, omdat ze anders bij elkaar opgeteld altijd 0 zijn.
Regressievergelijking - De vergelijking die bij de regressielijn hoort.
Standaard regressievergelijking: Ŷ = b0 + b1x.
B0: Intercept of constante.
B1: Regressiecoëfficiënt of helling.
Het dakje op de Y wordt gebruikt om aan te geven dat dit de voorspelde y-score is.
Meervoudige regressie
(HC)
Multipele regressie - Een statistische methode om de lineaire relatie tussen één afhankelijke variabele en twee of
meer onafhankelijke variabelen te analyseren en te voorspellen.
Regressievergelijking: Ŷ = b0 + b1x1 + … +bkxk.
Regressiemodel - Een breder statistisch raamwerk dat de regressievergelijking omvat, maar ook een e (error)
waardoor de vergelijking voor de hele populatie geldt.
Regressiemodel: Y = b0 + b1x1 + e.
1 - Multipele regressie analyse 1
, e (error) - De foutterm, residuen. Vertegenwoordigt het verschil tussen de werkelijke, geobserveerde
waarde van de afhankelijke variabele. omdat de voorspelling niet voor iedereen geldt. Er is hierdoor
speling.
De Y krijgt hier geen dakje, omdat he geen voorspelling is. Door de e is het altijd waar.
Assumpties multipele regressie
(HC, Grasple MLR2)
1. Lineair verband tussen de predictorvariabelen en Y.
2. Zowel de Xi als Y zijn gemeten op interval/ratio meetniveau.
a. Nominale of ordinale onafhankelijke variabelen moeten eerst omgezet worden in dummyvariabelen (zie
volgend kopje).
3. Geen uitschieters
Controleren in JASP: Spreidingsdiagram (twee variabelen), histogram of boxplot (één variabele). Om te
controleren of er geen multivariate uitschieters zijn, gebruik je Casewise diagnostics. Je kan hierbij kijken
naar de Standard residual of Cook’s distance.
Multivariate uitschieters - Datapunten die ongebruikelijk zijn in de combinatie van scores op ten
minste twee variabelen tegelijk.
Bv: Het is onwaarschijnlijk dat iemand van 10 jaar als 5 jaar werkervaring heeft, terwijl deze
variabelen los van elkaar wel echt kunnen bestaan.
Standard residuals - Geven aan of er uitschieters in de Y-ruimte zijn. Waardes kleiner dan -3.3 of
groter dan 3.3 duiden op uitschieters. Je kan ook de grenswaarden -3 en 3 gebruiken. In grote
steekproeven zijn waarden die hier net buiten liggen niet erg.
Cook’s distance - Geven aan of er uitschieters in de XY-ruimte zijn.
4. Homescedasticiteit
Homescedasticiteit - De spreiding van de residuen per x-waarde is ongeveer gelijk.
Als deze spreiding niet gelijk is spreken we van heteroscedasticiteit.
Controleren in JASP: Residuals vs. predicted.
Hierin worden de gestandaardiseerde residuen geplot tegen de gestandaardiseerde voorspelde
waardes. Als er voor elke voorspelde op de x-as waarde ongeveer evenveel spreiding is op de y-as,
dan is er voldaan aan de voorwaarde.
5. Normaal verdeelde residuen.
Controleren in JASP: Residuals histogram of Q-Q plot standardized (de stippen moeten zich redelijk op de
lijn bevinden).
6. Geen multicollineariteit
Multicollineariteit - De relatie tussen twee of meer onafhankelijke variabelen is te sterk.
Bv: Leeftijd en werkervaring. Afstand in cm en inches.
Gevolgen:
Regressiecoëfficiënten zijn onbetrouwbaar.
De grootte van R (correlatie tussen Y en Y met een dakje) wordt beperkt.
Het belang van individuele onafhankelijke variabelen is niet of nauwelijks te bepalen.
Controleren in JASP: Collinearity diagnostics. Waardes voor de Tolerance kleiner dan 0.1 duiden op een
probleem en kleiner dan 0.2 een mogelijk probleem. VIF=1/Tolerance, dus deze mag niet groter zijn dan
10.
1 - Multipele regressie analyse 2
, Oplossing bij multicollineariteit: Zoek uit welke variabelen het probleem veroorzaken en verwijder
vervolgens een of meer variabelen.
Output JASP
(HC, Grasple MLR3)
JASP output meervoudige regressie:
JASP output hiërarchische regressie met twee modellen:
1 - Multipele regressie analyse 3
, 1. Model summary: Algemene kwaliteitsgegevens van het regressiemodel.
a. De p-waarde in deze tabel geeft aan of de toename in verklaarde variantie significant is.
2. ANOVA: Uitkomst van de F-toets voor het model.
a. De p-waarde in deze tabel kijkt of de modellen als geheel significant zijn.
3. Coefficients: Informatie over de regressiecoëfficiënten.
a. Je kan in deze tabel ook o.a. het betrouwbaarheidsinterval aanvragen en de collinearity diagnostics om
multicollineariteit te controleren.
R²
(HC, Grasple VK05 & MLR3)
R - De multipele correlatiecoëfficiënt. Deze waarde geeft aan wat de correlatie is tussen de daadwerkelijke
tevredenheidsscores (Y) en de voorspelde tevredenheidsscores (Ŷ). Dit is een indicatie van hoe goed het model
is om tevredenheid te voorspellen.
R² - Een statistische maatstaf die aangeeft welk percentage van de spreiding in de afhankelijke variabele wordt
verklaard door alle onafhankelijke variabele(n) in het model. Hiermee beoordelen we de goodness of fit.
Goodness of fit - Hoe goed de lineaire regressielijn bij de datapunten past.
R² = SSM/SST = Spreiding verklaard door het regressiemodel / totale spreiding.
.01=klein, .09=medium, .25=groot.
Bv: Een R² van .46 betekent dat 46% van de variantie van de afhankelijke variabele wordt verklaard door de
onafhankelijke variabele(n).
Adjusted R² - Het geschatte percentage verklaarde variantie in de populatie.
R² wordt hiervoor aangepast op basis van de steekproefgrootte en het aantal predictoren in het model. Het is
altijd iets lager dan R².
Hypothesen bij multipele regressie
(HC)
Hypothesen bij regressieanalyse:
H0: ρ² = 0. Het model verklaard geen spreiding van de afhankelijke variabele.
H1: ρ² > 0. Het model verklaard iets van de spreiding van de afhankelijke variabele.
De hypothesen gaan over de populatie, dus daarom gebruiken we de Griekse ρ in plaats van R.
F-toets
(HC)
F-toets - Statistische toets die in een regressieanalyse laat zien of een model significant bijdraagt aan de
verklaring van de afhankelijke variabele. We toetsen dus de significantie van het gehele model.
F-toets is niet significant: Onderzoek welke predictoren niet significant zijn en dus geen toevoeging hebben
aan de voorspelling. Deze kan je om de beurt weghalen. Begin met degene die de hoogste p-waarde heeft.
F-toets is wel significant: Onderzoek welke predictoren significant zijn en de meeste invloed hebben. Dit toen
we met een t-toets voor een individuele regressiecoëfficiënt. Er kan dus maar één variabele tegelijk. De
hypothesen zijn dan:
H0: : βi = 0. Predictor i draagt niks bij aan de voorspellingen van de afhankelijke variabele.
β is het regressiecoëfficiënt. Het is belangrijk dat je de gestandaardiseerde neemt, want deze zijn
schaalonafhankelijk en kunnen met elkaar vergeleken worden.
1 - Multipele regressie analyse 4