Als er twee of meer onafhankelijke determinanten/verklarende variabelen zijn dan kan (afhankelijk van de
type variabelen) gebruik gemaakt worden van multivariabele statistische technieken, zoals multiple
lineaire regressie, multiple logistische regressie en overlevingsanalyse, om het effect van X en Z op Y te
verklaren.
Multiple lineaire regressie
Bij multiple lineaire regressie is er sprake van één continue
uitkomst/afhankelijke variabele (Y) en meerdere continue en/of
categorische onafhankelijke/verklarende variabelen (=
determinanten) (X, Z). Bij multiple lineaire regressie wil men het
effect van X en Z, die onafhankelijk zijn van elkaar, op Y verklaren.
Model Yi = Continue, afhankelijke
𝑌𝑖 = + 1 𝑋1𝑖 + 2 𝑋2𝑖 + 𝑘 𝑋𝑘𝑖 + 𝜀𝑖 variabele/uitkomst.
= Intercept/Asafsnede.
* εi is onafhankelijk voor i = n. εi volgt een normale verdeling met k = Lineaire regressiescoëfficiënt. =
gemiddelde 0 en een variantie van σ2 (εi N (0 ; σ2). De variantie is Effectgrootte.
dus niet afhankelijk is van Xi. De variantie is constant over de gehele Xki = Onafhankelijke variabele.
lengte van de regressielijn. εi = Afwijkingsscore = Residu = De
verticale afstand tussen een
Crude effectschatting = Ongecontroleerd model. waarneming en de regressielijn.*
Adjusted effectschatting = Gecontroleerd model waarin confounders
en/of andere factoren worden meegenomen.
Geschatte lineaire regressielijn
̂𝑖 = 𝑎 + 𝑏1 𝑋1𝑖 + 𝑏2 𝑋2𝑖 + 𝑏𝑘 𝑋𝑘𝑖
𝑌
Doelen
• De relatie tussen Y en X1 zo goed mogelijk beschrijven, terwijl er rekening wordt gehouden met X2,
X3, Xk (= controle voor mogelijke confounders). → Alle factoren in het model laten staan (ook als ze
niet statistisch significant zijn.
• Observationeel.
• Y zo goed mogelijk voorspellen op basis van meerdere variabelen (= predictiemodellen). →
Mogelijk om factoren die niet statistisch significant zijn uit het model te verwijderen.
• Observationeel.
• Interventie.
• Interactie bekijken.
• Observationeel.
• Interventie.
Proportie verklaarde variantie (R2)
Proportie verklaarde variantie (R2) = Het deel van de variantie in Y dat wordt verklaard door het gefitte
model.
Er geldt:
1
, 𝑆𝑆𝑅𝐸𝐺𝑅
𝑅2 = = 𝑟2
𝑆𝑆𝑇𝑂𝑇
R2*100% van de variantie wordt verklaard door de lineaire samenhangt tussen Y en X. Als dit getal hoog is
betekent dit dat slechts een klein deel (100% - R2*100%) wordt veroorzaakt door invloeden van buitenaf.
De voorspellende waarde van het model is dan goed.
De correlatiecoëfficiënt (r) heeft geen eenheid. Dit betekent dat verschillende correlatiecoëfficiënten met
elkaar vergeleken mogen worden. Op basis van r kunnen uitspraken worden gedaan over de grootte van
het effect van bepaalde factoren.
LET OP! De waarde van R wordt absoluut weergegeven.
Aannames voor multiple lineaire regressie
• Er is een lineaire samenhang tussen Y en X1, Y en X2, etc.
Check: scatterplot.
• De waarnemingen in de steekproef zijn onafhankelijk van elkaar.
Dit is niet mogelijk om te checken, want dit hoort bij de proefopzet.
• De residuen (εi) zijn normaal verdeeld.
Dit betekent dat de waarnemingen waarden tussen -∞ en +∞ kunnen aannemen.
Check: de waarnemingen in de steekproef kunnen uit een normale verdeling komen (boxplot,
histogram, Q-Q-plot).
• De residuen (εi) hebben bij iedere waarde voor X dezelfde variantie/De varianties moeten gelijk zijn
voor iedere waarde van de verklarende variabelen.
Check: residuen plot.
• De X-variabele is een instelvariabele en heeft dus geen meetfout.
Betrouwbaarheidsinterval voor de lineaire regressiecoëfficiënt .
Het is mogelijk om een betrouwbaarheidsinterval voor de lineaire regressiecoëfficiënt te berekenen. Dit
kan op dezelfde manier als beschreven bij hoorcollege 12.
F-toets op de lineaire regressiecoëfficiënten
H0 en H1
Voor beide methoden gelden de volgende hypotheses:
• H0: 1 = 2 = 3 = 0.
Alle verklarende variabelen in het model hebben geen effect.
• H1: Ten minste één i in het model is niet gelijk aan 0/heeft een effect.
LET OP! In de tabel met coëfficiënten worden ook p-waarden gegeven voor voorwaardelijke toetsen. Hier
wordt getoetst of een effect gelijk is aan 0 onder de voorwaarde dat de andere effecten niet gelijk aan 0
hoeven te zijn. Er wordt dus getoetst of een verklarende variabele uit het model mag.
VOORBEELD 1: Multiple lineaire regressie
Onderzoeksvraag: Wat is het effect van roken (D) op geboortegewicht (U)?
Er wordt rekening gehouden met potentiële confounders.
2