Aantekeningen hoorcollege 1 – Regressieanalyses
Achtergrond: variabelen en modellen
• Soorten variabelen
o NOM: nominaal (’labels’)
o DUM: dummy variabelen (bv. D = 1: experimenteel, D = 0: controle) → 2 opties
o INT: interval/kwantitatieve variabele
• Welk model hoort daarbij?
Lineaire relaties
In veel onderzoekssituaties zijn er intervalvariabelen (INT) → bv. Lengte, gewicht, leeftijd,
schaalscores, vaardigheidsscores, etc. Vanuit een wetenschappelijke theorie hebben we vaak
verwachtingen over hoe variabelen gerelateerd zijn. Je wil vaak iets voorspellen. Hoe kunnen we
een relatie uitdrukken?
Mogelijk door een spreidingsdiagram (scatterplot): alle punten op een grafiek tegenover elkaar
zetten, en kijken naar de vorm. Een lineair model werkt goed in de praktijk, het blijkt dat veel
relaties tussen twee intervalvariabelen redelijk met een lineair verband zijn samen te vatten. Een
lijn wordt beschreven door een helling. Dit getal (=parameter) geeft richting van een relatie weer,
en interpretatie aan een relatie. Er zijn verschillende lijnen mogelijk → je kiest degene die ook een
maat voor een sterke relatie geeft.
• Kleinste kwadratensom residuen:
o Bereken alle residuen (= afstanden punten tot de lijn)
o Kwadrateer alle residuen
o Tel al deze gekwadrateerde residuen bij elkaar op
o Kies de lijn zodat deze som zo klein mogelijk is
→ zelf rekenen hoeft niet, dit doet de computer. Meer zodat je een beeld krijgt van wat er gebeurt.
• Pearson correlatie:
o Maat voor sterke lineaire relatie
o Nulhypothese bij t-toets: H0: R = 0 (geen relatie)
o P < 0.001 → significante relatie: onwaarschijnlijk dat we een verband vinden als dit
verband er in de werkelijkheid er niet is → dus niet gewoon ‘het is waar’!
o Correlatie kan positief of negatief zijn
o Kwadraat van de correlatie: gemeenschappelijke variantie
, o Bv. Correlatie= -0.88, variantie = (-0.88)^2 = 0.774 → 77% variantie gemeenschappelijk:
dus zoveel overlap tussen de variabelen, zoveel procent van de verschillen kun je
voorspellen
Significantietoetsen
• Nulhypothese: een populatiegrootheid heeft een bepaalde waarde (vaak 0, geen verschil,
maar kan ook zijn bv. Gemiddelde van 50 ofzo)
• Alternatieve hypothese: de populatiegrootheid heeft die waarde niet (groter, kleiner, ongelijk)
• Doel statistisch toetsen: probeer de nulhypothese te verwerpen (belangrijk, nooit aannemen!
Want je weet het nooit zeker)
• Toetsingsgrootheid uitrekenen, en dit verhouden aan wat we weten uit de populatie. Hoe
bijzonder is dit wat we gevonden hebben?
• P-waarde: ‘de kans om een uitkomst te vinden zo extreem of nog extremer dan het gevonden
effect als H0 waar zou zijn’ → dus hoe kleiner de p, hoe sterker het bewijs tegen de
nulhypothese, hoe onwaarschijnlijker de nulhypothese.
• De waarde van p hangt af van het gekozen significantieniveau alfa
• Hoe interpreteer je de uitkomst van de significantietoets?
o P < alfa: significant → er lijkt bewijs tegen de nulhypothese
o P > alfa: niet significant → geen idee of er een populatie-effect is
o Wel voorzichtig interpreteren! Er is veel onzekerheid bij statistiek
Statistisch model
• Relatie tussen variabelen in de populatie:
o Y = score op afhankelijke variabele y
o X = score onafhankelijke variabele x
o E = residu (error, afwijking)
o Bo = intercept (kruising/snijpunt met de x-as)
o B1 = helling (slope) → hoe steil gaat de lijn)
• In werkelijkheid heb je deze lijn niet precies, dan zou je de data van alle mensen moeten
hebben, dus deze lijn die schat je gewoon. Dit gebeurt met de kleinste kwadratensom
methode
• De geschatte regressielijn is dan: y = b0+b1x (denk aan y=ax+b)
• Dit model betekent niet dat alles perfect moet zijn, gewoon globaal. Het hoeft niet allemaal
op de lijn te liggen. Wel restrictie hierbij: homoscedasticiteit
• Homoscedasticiteit: gelijke variantie, de verticale spreiding is voor ongeveer alle waarden
van de x gelijk, het puntenwolkje heeft een gelijke vorm. Is dit niet het geval, dan erg voorzichtig
zijn met de interpretatie
• Deze verwachtte waarden kan SPSS allemaal uitrekenen:
o B(constant) is hier gelijk aan b0 → dus het intercept
o B Coping is hier gelijk aan b1 → dus de helling
o Helemaal rechts staat de significantie, is het significant en daarmee waarschijnlijk
ongelijk aan 0 in de populatie?
, o Als de helling significant is (onderste regel) lijkt deze variabele een voorspeller te zijn
van de andere variabele in de populatie
o Intercept is vaak inhoudelijk helemaal niet zo interessant, we hebben meer gewoon
een beginpunt nodig. Betekenis: als er helemaal geen x is (coping, gewicht, etc.) Dan
voorspellen we deze score y (depressie, lengte)
Verklaarde variantie
• Als alle punten allemaal dicht bij de regressielijn liggen:
o Veel kleine residuen;
o Hoge correlatie tussen variabelen;
o Hoge r^2;
o Veel verklaarde variantie
• Als de punten verder weg van de regressielijn liggen:
o Veel grote residuen;
o Lage correlatie tussen variabelen;
o Lage r^2;
o Minder verklaarde variantie
• Hoe meer variabelen je meeneemt, hoe beter het uiteindelijk te voorspellen valt
• Is geen causaal verband, alleen een relatie!
Assumpties
• Je mag alleen bepaalde toetsen doen als er aan bepaalde aannames/voorwaarden/
assumpties wordt voldaan. Anders kan je eigenlijk niet iets zeggen over de populatie, heel
voorzichtig zijn met interpretatie
• Als assumpties niet lijken op te gaan:
o Beïnvloedt standaardfouten van coëfficiënten
o Beïnvloedt waarde van statistieken (F-waarde, t-waarde)
o Beïnvloedt p-waarden
o Daardoor mogelijk verkeerde conclusies trekken
• Wat zijn de assumpties voor regressieanalyse
o Relatie y en x (x2, x3…) is lineair, er wordt een lineaire relatie verondersteld
o Residuen zijn normaal verdeeld met gemiddelde 0
o Homoscedasticiteit: de variantie van residuen is constant voor alle combinaties van
waarden voorspellers (als dit niet zo is: heteroscedasticiteit. Lichte vorm hiervan mag,
hoeft niet perfect te zijn, maar niet te sterk)
o Residuen zijn onafhankelijk: scores van participanten zijn onafhankelijk (random
sample)
• Als assumpties wordt geschonden:
o Probeer een transformatie van de voorspeller of een robuuste versie van regressie →
hoef je niet te kennen, wel fijn te weten als je zelf onderzoek doet
o Niet lineariteit: niet-lineaire regressie
o Afhankelijke residuen: multi-level regressie
o Heteroscedasticiteit: gewogen kleinste kwadratenregressie
Bij meerdere voorspellers:
• Je wil dat ze sterk samenhangen met de onafhankelijke variabele (y), en dat er juist geen sterke
samenhang is tussen de andere afhankelijke variabelen (x)
, Literatuur bij college 1:
9.1 - Lineaire relaties
We noemen y de responsvariabele en x de verklarende variabele. We analyseren hoe de waarden
van y veranderen van de ene subgroep van de populatie naar de andere, afhankelijk van de waarde
van x.
De formule y=a+bx beschrijft de waarnemingen van y als een lineaire functie van de
waarnemingen van x. Deze formule wordt weergegeven als een rechte lijn met helling b en een y-
intercept a. In de context van regressieanalyse worden a en b regressiecoëfficiënten genoemd.
Wanneer de lijn stijgt (dus y toeneemt als x toeneemt), spreken we van een positieve relatie.
Wanneer b negatief is, spreken we van een negatieve relatie.
Een model is een eenvoudige benadering van de relatie tussen variabelen in de populatie. De
lineaire functie biedt een eenvoudig model voor de relatie tussen twee kwantitatieve variabelen.
9.2 - De least squares voorspellingsvergelijking
De gegevenswaarden (x,y) van een bepaald onderwerp vormen een punt ten opzichte van de x- en
y-as. Een weergave van de n waarnemingen als n punten heet een spreidingsdiagram (scatterplot).
De steekproefvergelijking wordt de voorspellingsvergelijking genoemd, omdat deze een
voorspelling y^ geeft voor de responsvariabele bij een bepaalde waarde van x. De formules voor a
en b zijn:
Een uitbijter is een waarneming die ver van de trend van de rest van de gegevens ligt. Dit kan
ervoor zorgen dat de regressielijn afwijkt van het algemene patroon van de punten.
Een waarneming wordt influential genoemd als het verwijderen ervan leidt tot een grote
verandering in de voorspellingsvergelijking. Voorspellingsfouten, oftewel het verschil tussen y en
het gemiddelde van y, worden residuen genoemd.
De kleinste-kwadraten schattingen van a en b zijn de waarden die de voorspellingsvergelijking
opleveren waarbij de som van de kwadraten van de residuen minimaal is. Naast het minimaliseren
van fouten, heeft de kleinste-kwadratenlijn enkele eigenschappen: sommige residuen zijn
positief, andere negatief, maar de som ervan is altijd nul. De lijn gaat bovendien altijd door het
punt (xˉ,yˉ) (het gemiddelde van x en y).
9.3 - Het lineaire regressiemodel
Voor het lineaire model y=α+βx geldt dat elke waarde van x correspondeert met precies één
waarde van y. Een dergelijk model noemen we deterministisch. Dit is echter onrealistisch in
sociaalwetenschappelijk onderzoek, omdat we niet verwachten dat alle individuen met dezelfde
x-waarde exact dezelfde y-waarde hebben. In plaats daarvan variëren de y-waarden.
Een probabilistisch model houdt rekening met deze variabiliteit in y bij elke waarde van x.
Het symbool E staat voor de verwachte waarde. E(y) geeft het gemiddelde aan van een
conditionele verdeling van y.
Een regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van de
responsvariabele verandert afhankelijk van de waarde van de verklarende variabele.