Lineaire regressie, significantie, verklaarde variantie, gestandaardiseerde
coëfficiënten, dummyvariabelen en moderatie
Module 12 – Enkelvoudige lineaire regressie
12.1 Wat is lineaire regressie en wanneer gebruik je
het?
Regressieanalyse beantwoordt de vraag: kun je op basis van de waarde van één
variabele (X) de waarde van een andere variabele (Y) voorspellen? X heet de
verklarende of onafhankelijke variabele, Y de afhankelijke variabele. Het resultaat is
een regressielijn — de rechte lijn die de lineaire relatie tussen X en Y zo goed
mogelijk beschrijft.
Drie voorwaarden moeten zijn vervuld voordat regressie zinvol is: er moet een
associatie bestaan tussen X en Y, die associatie moet lineair zijn (te controleren via
een scatterplot), en er moet op basis van theorie een causale richting te
beargumenteren zijn. Mathematisch zijn X en Y inwisselbaar, maar de interpretatie is
dat X Y voorspelt, niet andersom.
Als het verband niet-lineair is (bv. U-vormig), dan levert een lineair model een
misleidende b ≈ 0, terwijl er weldegelijk een verband bestaat. Kijk áltijd eerst naar
de scatterplot — ook als X = een categorische variabele (dummy). Er kan dan
sprake zijn van een outlier die de lijn sterk trekt zonder dat het patroon echt
lineair is.
12.1 De regressievergelijking
De lijn wordt beschreven met de formule:
ŷ = a + b × x
ŷ (y-hat) is de voorspelde waarde van Y voor een gegeven X. a (het intercept of de
constante) is de voorspelde waarde van Y wanneer alle X-waarden gelijk zijn aan 0
— bij meervoudige regressie (ŷ = a + b₁x₁ + b₂x₂ + ...) dus wanneer X₁ = 0 én X₂ = 0
én X₃ = 0 tegelijkertijd. Grafisch: het punt waar de lijn de y-as snijdt. b (de slope)
geeft aan hoeveel Y gemiddeld verandert als X met één eenheid stijgt. Een positieve
b = positief verband, negatieve b = negatief verband.
Valkuil (tentamenvraag): bij meervoudige regressie is a de voorspelde waarde
van Y als álle X-waarden 0 zijn — niet alleen als één ervan 0 is, en niet het
gemiddelde van Y. De formulering „de constante geeft de voorspelde waarde van
Y als de waarden van X₁, X₂ en X₃ allemaal gelijk zijn aan 0” is de enige correcte
interpretatie.
Rekenvoorbeeld: ŷ = 3 + 0,4x. Bij X = 0 is ŷ = 3 (intercept). Bij 9 studie-uren: ŷ = 3 +
0,4 × 9 = 6,6. De slope van 0,4 betekent: elk extra uur studeren hangt samen met
gemiddeld 0,4 punt meer.
,12.1 Hoe wordt de regressielijn bepaald? (OLS)
De methode Ordinary Least Squares (OLS) kiest de lijn waarbij de som van alle
gekwadrateerde residuen zo klein mogelijk is. Een residu is het verschil tussen de
werkelijke waarde en de voorspelde waarde: residu = y − ŷ.
OLS minimaliseert de Residual Sum of Squares: RSS = Σ(y − ŷ)². Dit is de best
mogelijke rechte lijn door de data.
Teken van het residu: positief of negatief?
Het teken van een residu vertelt je waar het datapunt ten opzichte van de
regressielijn ligt:
• Positief residu (y > ŷ): het punt ligt bóven de lijn. De werkelijke waarde is
hoger dan voorspeld.
• Negatief residu (y < ŷ): het punt ligt ónder de lijn. De werkelijke waarde is
lager dan voorspeld.
• Residu = 0: het punt ligt precies op de lijn.
Rekenvoorbeeld: ŷ = 5,2 + 0,4x. Student volgt 10 colleges (X = 10) en haalt 8,2 (Y =
8,2). ŷ = 5,2 + 0,4 × 10 = 9,2. Residu = 8,2 − 9,2 = −1,00. Negatief: de student
scoorde láger dan voorspeld — het punt ligt onder de lijn.
Valkuil: een positief residu betekent dat de voorspelde waarde láger is dan de
werkelijke — niet dat het model goed voorspelt. En: bij OLS is de som van alle
residuen (niet de gekwadrateerde!) altijd gelijk aan 0, omdat positieve en
negatieve residuen elkaar opheffen. Daarom kwadrateren we.
Een handige eigenschap: de regressielijn gaat altijd door het punt (x̅ , ȳ) — de
gemiddelden van X en Y.
12.3 Verklaarde variantie: TSS, RSS, MSS en R²
R² laat zien hoeveel beter het model Y voorspelt dan de simpelste schatting: het
gemiddelde van Y (y̅). Je kunt dit grafisch zien als drie lijnsegmenten voor elk
datapunt:
Maat Formule Grafisch Betekenis
TSS Σ(y − y̅)² Punt tot gemiddelde Totale variatie in Y —
lijn (3) hoeveel er te verklaren valt
RSS Σ(y − ŷ)² Punt tot regressielijn Variatie die het model niet
(1) verklaart (fout)
MSS TSS − RSS Regressielijn tot Variatie die het model wél
gemiddelde (2) verklaart
R² MSS / TSS — Proportie verklaarde
variantie; 0 t/m 1
, De cijfers (1), (2) en (3) in de kolom Grafisch corresponderen met de drie lijnstukken
die in een figuur met een regressielijn en een horizontale gemiddeldenlijn worden
getekend. In een tentamenfiguur: (1) is het kortste stukje van punt naar regressielijn
(RSS), (2) is het stukje van regressielijn naar gemiddelde (MSS), en (3) is het totaal
van punt naar gemiddelde (TSS).
Interpretatie: R² × 100% = percentage verklaarde variantie. R² = 0,40 → 40% van
de variatie in Y wordt door het model verklaard; de voorspelfout is 40% kleiner dan
wanneer je altijd het gemiddelde zou raden.
De grootte van b zegt niets over R². Twee modellen kunnen dezelfde helling
hebben maar een totaal andere R². Als je wilt weten hoe goed het model Y
voorspelt: kijk naar R², niet naar b. Als je wilt weten hoe groot het effect is: kijk
naar b (of Beta).
R² en r
Bij enkelvoudige regressie: R² = r². R² is altijd positief en geeft geen richting aan.
Correlatie r geeft wél de richting aan (positief/negatief). Beide zijn onafhankelijk van
de meeteenheid van de variabelen, in tegenstelling tot b.
12.2 Significantie toetsen bij regressie
We schatten b uit een steekproef, maar willen iets zeggen over de populatie. De
populatieslope heet β.
De nulhypothese correct formuleren
De nulhypothese bij regressie is altijd:
H₀: β = 0
Dit stelt dat er géén lineair verband is in de populatie — de regressielijn in de
populatie is horizontaal.
Valkuil (tentamenvraag): gebruik β (de populatieslope), niet μ (een
gemiddelde), niet p (een kans), en niet X (een variabele). De nulhypothese H₀: μ
< 0 hoort bij een t-toets voor een gemiddelde. H₀: p < 0 is geen statistische
hypothese. H₀: X = 0 heeft helemaal geen betekenis. Alleen H₀: β = 0 is correct
bij regressie.
De alternatieve hypothese is tweezijdig (Hₐ: β ≠ 0) bij geen verwachting over richting,
of eenzijdig (Hₐ: β > 0 of Hₐ: β < 0) als de onderzoeker een specifieke richting
verwacht — bv. „de mate van werkbetrokkenheid neemt af met leeftijd” impliceert Hₐ:
β < 0.
De standaardfout (se) van de b-coëfficiënt
De standaardfout van b (seᵇ) geeft aan hoe sterk de geschatte slope b zou variëren
als je het onderzoek oneindig vaak zou herhalen met nieuwe steekproeven. Een
kleine se betekent dat b stabiel is over steekproeven; een grote se betekent dat b
sterk afhangt van welke steekproef je trok.
Se = de spreiding van het geschatte effect van X op Y over herhaalde
steekproeven. Dit is iets anders dan de standaarddeviatie van X of Y, en iets
anders dan de t-waarde zelf.