Multipele regressie · Mediatie & moderatie · Regressietabellen lezen · Onderzoeksintegriteit
Deel 1 – Module 14: Multipele Regressie
14.1 Waarom multipele regressie?
Bij enkelvoudige regressie voorspel je Y op basis van één X. In de werkelijkheid wordt een
uitkomst zelden door één factor bepaald. Multipele regressie voegt meerdere onafhankelijke
variabelen tegelijk toe. Dit heeft twee grote voordelen: nauwkeuriger voorspellen, én
statistisch controleren — het effect van X₁ op Y bekijken terwijl je X₂ constant houdt.
Dit ‘constant houden’ is essentieel bij het opsporen en corrigeren voor confounding variables
(verstorende factoren). Regressie veronderstelt een causale richting (X → Y), maar bewijst
die niet.
14.2 De multipele regressievergelijking
ŷ = a + b₁·x₁ + b₂·x₂ + … + bₖ·xₖ
Hierin is a de constante (intercept): de verwachte waarde van Y als áLLE X-variabelen gelijk
zijn aan nul. b₁, b₂, … zijn de partiële regressiecoëfficiënten: ze geven aan hoeveel Y
verandert bij één eenheid stijging in de betreffende X, terwijl de andere variabelen constant
worden gehouden. Dat ‘gecontroleerd voor’ is de kern van multipele regressie.
📌 Kernregel — Interpretatie partiële regressiecoëfficiënt
b₁ geeft het effect van X₁ op Y, gecontroleerd voor alle andere X-variabelen.
Voorbeeld: ŷ = 60.102 + 63·x₁ + 15.170·x₂ (huizenprijs)
b₁ = 63: per extra vierkante voet stijgt de prijs met $63, bij een GELIJK aantal
slaapkamers.
b₂ = 15.170: per extra slaapkamer stijgt de prijs met $15.170, bij een GELIJKE
huisgrootte.
⚠️ Let op: de constante a is de verwachte Y als ALLE X-waarden = 0. Bij
enkelvoudige regressie: X = 0. Bij multipele: X₁ = 0 én X₂ = 0.
Rekenvoorbeeld — tentamencijfers
Vergelijking: ŷ = 5,4 + 0,5·x₁ + 2,2·x₂. Met x₁ = attendance (0 = weinig, 1 = veel) en x₂ =
motivatie (0 = laag, 1 = hoog).
• a = 5,4: verwacht cijfer voor student met weinig bezoek én lage motivatie
• b₁ = 0,5: studenten met veel bezoek halen 0,5 punt hoger, bij gelijke motivatie
• b₂ = 2,2: studenten met hoge motivatie halen 2,2 punt hoger, bij gelijk bezoek
Enkelvoudige regressie gaf b = 1,93 voor collegebezoek. Na controle voor motivatie daalt dit
naar 0,5 — het grote oorspronkelijke effect was grotendeels schijn, veroorzaakt door
motivatie als confounder.
🎯 Tentamelvalkuil — partiële vs. enkelvoudige coëfficiënt
De partiële b in multipele regressie wijkt bijna altijd af van de slope in de bijbehorende
enkelvoudige regressie. Dat is normaal.
❌ FOUT: ‘b₁ in multipele regressie geeft het totale effect van X₁ op Y’
✅ JUIST: ‘b₁ geeft het effect van X₁ op Y, gecontroleerd voor X₂, X₃, …’
🟢 Aanvulling (op basis van oefentoets) — Interpretatie constante bij dummy- en
, continue variabelen
De constante (intercept) is altijd de verwachte Y als áLLE X-variabelen tegelijk 0 zijn. Let
op hoe je dit leest afhankelijk van het type variabele in het model:
• Continue variabele (bijv. HOURS): X = 0 betekent letterlijk 0 werkuren.
• Dummy-variabele (bijv. FEMALE, waarbij vrouw = 1, man = 0): X = 0 is de
referentiecategorie (= mannen).
Voorbeeld (Model 2, oefentoets): constante = 809,651 bij predictoren FEMALE en
HOURS. Dit is het verwachte salaris voor iemand bij wie FEMALE = 0 (→ man) en
HOURS = 0 (→ geen contracturen). Dat is wiskundig het nulpunt — niet per se
inhoudelijk zinvol.
📌 Tentamelvraag-check: “Verwachte Y voor een man met 0 contractuele
werkuren” = intercept van een model met FEMALE (dummy) en HOURS (continu).
Niet “voor het gemiddeld aantal uren” — dat is verkeerd.
14.3 Correlatiematrix en meervoudige correlatiecoëfficiënt R
Vóór een multipele regressie verken je de data met een scatterplot matrix — een overzicht
van scatterplots voor elk paar variabelen tegelijk. Zo zie je snel welke variabelen een lineair
verband hebben met Y. Vervolgens bereken je een correlatiematrix: een tabel met de
correlatiecoëfficiënt r voor elk paar variabelen. Belangrijk: de correlatiematrix maakt geen
onderscheid tussen respons- en verklarende variabelen.
Bij multipele regressie gebruik je de meervoudige correlatiecoëfficiënt R (hoofdletter): de
correlatie tussen de werkelijke Y-waarden en de voorspelde ŷ-waarden. R geeft aan hoe
goed alle X-variabelen samen Y voorspellen.
R = correlatie(y, ŷ)
14.4 R² — verklaarde variantie bij multipele regressie
R² (R-kwadraat) meet hoe goed het regressiemodel Y voorspelt: het geeft de proportionele
reductie in voorspellingsfout aan wanneer je het model gebruikt in plaats van simpelweg het
gemiddelde ȳ. R² = R² (het kwadraat van de meervoudige correlatiecoëfficiënt R).
Eigenschappen van R²:
• R² ligt altijd tussen 0 en 1 (0% = verklaart niets; 100% = perfect model)
• R² neemt nooit af als je een extra variabele toevoegt — ook een nutteloze variabele
verhoogt R² iets
• R² = 1 als alle residuen nul zijn; R² = 0 als geen enkele X iets verklaart (b₁ = b₂ = … =
0)
• R² is niet afhankelijk van de meeteenheden van X of Y
📌 Kernregel — R² bij multipele regressie: de correcte definitie
R² drukt uit hoeveel van de variantie van de afhankelijke variabele (Y) verklaard kan
worden door alle onafhankelijke variabelen in het regressiemodel (X₁, X₂, X₃, etc.).
De waarde van R² ligt altijd tussen 0 en 1.
❌ FOUT: R² drukt variantie van de onafhankelijke variabelen uit — nee, altijd de
afhankelijke Y.
❌ FOUT: R² ligt altijd tussen -1 en 1 — nee, dat is r (Pearson). R² nooit negatief.
✅ JUIST: R² = 0,32 → het model verklaart 32% van de variantie in Y.
r² (kleine letter) = enkelvoudige regressie (één X) | R² (hoofdletter) = multipele
regressie (meerdere X-en)
, 14.5 Significantietoetsing: t-toets, BI en F-toets
Bij multipele regressie heb je drie instrumenten voor significantietoetsing:
1. T-toets — afzonderlijk effect van één X
De t-toets toetst het partiële effect van één specifieke X, gecontroleerd voor de overige
variabelen. Elke coëfficiënt heeft zijn eigen t-waarde en p-waarde in de software-output.
🟢 Aanvulling (op basis van oefentoets) — Significantie bepalen zónder t-waarden
in de tabel
Soms ontbreken t-waarden en p-waarden in de tabel. Je kunt significantie dan op twee
manieren bepalen:
• Via vuistregel: t = B / SE(B). Als |t| > 1,96 (tweezijdig, α = 0,05), is het effect significant.
• Via betrouwbaarheidsinterval: als het 95%-BI de waarde 0 NIET bevat → significant.
• Eenzijdig vs. tweezijdig: bij eenzijdig toetsen (α = 0,05) is de kritieke t ≈ 1,645. Let op
de richting van de alternatieve hypothese!
Voorbeeld: B = -0,020, SE = 0,018 → t = -0,020/0,018 = -1,11. Tweezijdig: |t| = 1,11 <
1,96 → NIET significant. Eenzijdig: ook niet significant.
2. Betrouwbaarheidsinterval van de slope
95% BI = b₁ ± t* × SE(b₁)
Als het interval nul bevat → effect niet significant. Als het interval geheel boven of onder nul
ligt → effect significant.
Voorbeeld: b₁ = 0,119, BI = [−0,056; 0,293] → bevat nul → niet significant.
3. F-toets — het gehele model tegelijk
De F-toets beantwoordt de vraag: “heeft minstens één van alle X-variabelen samen een
effect op Y?” De hypothesen zijn:
• H₀: β₁ = β₂ = … = βₖ = 0 (geen enkele X heeft een effect, R² = 0)
• H℀: minstens één β ≠ 0 (minstens één X heeft een effect, R² > 0)
Een significante F-toets (p < 0,05) betekent dat het model als geheel significant is. Dit zegt
niets over welke specifieke X significant is — daarvoor gebruik je de t-toetsen per variabele.
T-toets F-toets
Wat wordt Effect van één specifieke X Effect van alle X-en gezamenlijk
getoetst?
H₀ βᵢ = 0 β₁ = β₂ = … = βₖ = 0
Vraag Heeft díé variabele een effect? Heeft het model als geheel een
effect?
Significant als… p < 0,05 voor die specifieke X p < 0,05 → minstens één X heeft
effect