HC 1: Multipele regressie analyse (MRA)
Multivariate data analyse gaat over statistische technieken waarbij je meer dan twee variabelen hebt. Hierbij
kijk je naar relaties tussen die variabelen.
In de eerste vier weken van dit vak zullen technieken worden behandeld die grofweg dezelfde structuur
hebben als het gaat om variabelen:
- 1 afhankelijke variabele (Y).
- Meerdere onafhankelijke variabele (X1, X2, etc.).
- De onderzoeksvraag is veelal; kan Y worden voorspelt uit X1 en/of X2?
→ De techniek die je kiest hangt af van de meetniveaus van de variabelen.
De drie verschillende meetniveaus:
1. Nominaal= maakt een onderscheid in categorieën, er is geen betekenisvolle ordening in die
categorieën.
VB: Geen therapie=1, psycho-dynamische therapie=2 en exposure therapie=3.
2. Interval= er zijn intervallen die betekenisvol zijn.
VB: Gewicht, lengte, IQ, etc.
Hiernaast heb je eigenlijk ook ratio meetniveau waarbij er een betekenisvol nulpunt is, dat is in dit
vak echter niet van belang.
3. Binair= twee categorieën, kan zowel interval als nominaal zijn.
VB: Binair interval:
Geslaagd=1/gefaald=0. Hier is het dus interval omdat geslaagd een hoger getal is dan gefaald. Het
ene is beter dan het ander en dat onderscheid is in 2 getallen weergegeven (maakt niet perse uit
welke getallen).
VB: Binair nominaal:
Man/vrouw.
Welke techniek je kiest hangt dus af van de meetniveaus:
→ Hier is het zo dat de onafhankelijke variabele ook elke keer binair kunnen zijn op het meetniveau wat er
beschreven staat. Maar als de afhankelijke variabele (Y) binair is, kan er alleen een LRA worden gedaan.
De relatie tussen variabelen voor elke techniek kan ook als volgt worden weergegeven:
,Multipele regressie analyse:
- Voorbeeld:
Onderzoeksvraag: kan depressie (Y) voorspelt worden door life events (X1) en/of coping (X2)?
Onderzoek wordt verricht met 60 studenten, de volgende dingen worden gemeten:
o Beck depression inventory (BDI) (0-9=minimaal, 10-18=mild, 19-29=matig, 30-63=ernstig).
o Aantal life events.
o Coping index (1= geen coping, 10=goede coping).
- Onderzoeksvraag bij MRA:
Kan de afhankelijke variabele Y, voorspelt worden door de onafhankelijke variabelen X1 en/of X2?
- Meetniveaus:
o Afhankelijke variabele Y= interval.
o Onafhankelijke variabele X1/X2= interval.
- Bij multipele regressie zijn er dus meerdere voorspellers.
- Bij een regressiemodel wordt Y weergegeven als lineaire functie van de predictoren. Met een
regressiemodel probeer je die functie zo goed mogelijk te voorspellen, je probeert dus een lijn te
vormen die de data zo goed mogelijk weerspiegelt.
- Regressiemodellen obv. populatie:
o Enkelvoudige regressie:
o Multipele regresie:
b*= populatiewaarden.
b1*= populatie regressie coëfficiënten.
X1i= score op X1 van een bepaald individu i.
Yi= score op Y van een bepaald individu i.
ei= residu van een bepaald individu i, dit is dus de mate van afwijking van een bepaald persoon van de
regressielijn.
- Regressiemodellen obv. data:
o Enkelvoudige regressie:
o Multipele regressie: , waarbij
b= de coëfficiënten van de steekproef, ook wel de geschatte populatie coëfficiënten.
Yi^= de voorspelde waarde van Yi.
b0= de intercept; het punt waar de regressielijn de y-as snijdt (x=0).
De ei zit hier dus niet in de regressievergelijking, maar in de waarde van Yi.
R studio:
Als je op het voorbeeld een regressie analyse in R op uitvoert krijg je de volgende output:
Dit interpreteer je als volgt:
o Estimates:
Dit zijn de regressiecoëfficiënten, waarbij intercept=b0.
o Intercept:
De gemiddelde score op Y als de waarde van de predictoren nul is.
VB: De waarde op de depressiescore als iemand 0 life events en 0 coping heeft.
, o Std. Error:
Wanneer je de estimates door de std. Error deelt krijg je de t-value voor die variabele.
o T-value:
De toetsstatistiek die hoort bij een predictor, de t-toets toetst per predictor. Hij kijkt of de
waarde van de regressiecoëfficiënt van die predictor afwijkt van nul in de populatie.
o Pr:
De p-waarde die hoort bij de t-toets voor de desbetreffende predictor. Als die significant is is
de predictor dus een significante voorspeller van y.
o F-statistic:
De waarde van de F-toets over het hele model, er achter staan de twee vrijheidsgraden en de
p-waarde.
o DF:
Voor de vrijheidsgraden geldt, het eerste getal is het aantal predictoren wat je hebt in je
model (=aantal vrijheidsgraden van het model zelf). Het tweede getal is het aantal
vrijheidsgraden van de residuals.
o P-waarde gehele model:
De nulhypothese kan verworpen worden als deze significant is. Een significante p voor het
gehele model betekend het volgende:
• Er is tenminste één regressiecoëfficiënt de niet gelijk is aan nul.
• Er is een relatie tussen de depressie (Y) en life events (X1) en/of coping (X2).
• Depressie (Y) kan worden voorspelt door life events (X1) en/of coping (X2).
Je weet echter nog niet welke predictoren van invloed zijn, of dat wellicht beide predictoren
van invloed zijn.
o Multiple R squared:
Dit zegt wat over hoe goed het model een voorspelling maakt. De p-waarde zegt namelijk
dat er iets gebeurt of iets te voorspellen is, maar zegt niet hoe goed die voorspelling dan is.
- SSresidual zo klein mogelijk (kleinste kwadraten principe):
De regressielijn wil je zo kiezen dat de sum of squares van de residu zo klein mogelijk is. Dit betekend
eigenlijk dat het verschil tussen de voorspelde waarde van Y van een bepaald individu (=Yi^; ook wel
Yi op de regressielijn) en de geobserveerde waarde van Y van een bepaald individu (Yi) zo klein
mogelijk is. De beste regressielijn en de vergelijking die daar bij hoort is dus af te leiden via de
kleinste SSresidual. Dat hoeven we in dit vak niet te kunnen.
o Formule:
Yi= de waarde van Y voor individu i.
Yi^= de voorspelde waarde van Y voor individu i.
Door de kwadratie krijg je hier geen negatieve waardes van afwijkingen/verschillen tussen Yi^ en Yi.
Als je niet zou kwadrateren zou je zowel negatieve als positieve verschillen hebben waardoor de som
van die verschillen op nul zou uitkomen. Dat wil je niet, dus kwadrateer je.
- F-toets:
De F-toets over het gehele model wordt gebruikt om te toetsen of X1 en/of X2 significante
voorspellers zijn van Y. Doormiddel van statistisch toetsen kunnen de resultaten gegeneraliseerd
worden naar de populatie.
o Hypothesen van de F-toets:
H0: b*1=b*2=…b*k=0 → Ook wel: er is geen relatie tussen Y, X1 en X2.
Ha: tenminste één b*j≠0
, o Toetsen van hypothesen:
Yi= de geobserveerde score op Y voor individu i uit de steekproef.
Y= groepsgemiddelde van Y in de steekproef.
Y^i= voorspelde score op Y voor individu i volgens het regressiemodel.
SStotal= totale sum of squares.
SSregression= sum of squares van het regressiemodel.
SSresidual= sum of squares van de residuen.
DFregression= dit is het aantal predictoren in de regressie, ook wel het eerste getal
bij DF in de R-output.
DFredisual= steekproefgrootte (N) – aantalvoorpellers (J) – 1. Dit is ook wel het
tweede getal bij DF in de R-output.
MS=mean squares, is dus de sum of squares gedeeld door het aantal vrijheidsgraden.
o F-toets van het hele model is significant:
Dit betekend dat er iets aan de hand is, namelijk:
• Er tenminste één regressie coëfficiënt niet gelijk is aan nul.
• Er een relatie is tussen de afhankelijke variabele en een of meer predictoren.
• De afhankelijke variabele voorspelt kan worden door een of meer van de
predictoren.
→ Je weet echter nog niet welke predictor iets doet, of dat beide predictoren dit
doen.
R studio:
Je kan de F-waarde ook handmatig berekenen op basis van R-output, als je bijvoorbeeld een anova
tabel laat maken in R.
1. Dan bereken je eerst de SSregression:
Dat is in dit geval de som van de sumsq van de beide predictoren.
Dus: 4678.5+2708.0=7386.506
(In de bovenstaande R output zie je hoe dit in R kan worden gedaan).
2. Bereken dan de MSregression:
Die SS regression deel je door het aantal predictoren, oftewel het aantal vrijheidsgraden van het
model (=2).
3. Bereken dan de SSresidual:
Dat is de sumsq die bij residuals staat in de tabel.
4. Bereken de MSresidual:
Je deelt de SS residual door het aantal vrijheidsgraden wat bij de residuals in de tabel staat (=57).