Hoge R square betekent niet dat er geen fouten zitten in de data → kunnen alsnog outliers
zijn dus altijd eerst je scatterplot maken
Hoe zie je of R square sterk, moderate of zwak is in een scatterplot?
- Als de puntjes allemaal dicht bij de lijn liggen dan zal je effectsize erg groot zijn en
daarmee sterk
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression 8.584 2 4.292 7.476 <.001b
Residual 126.879 221 .574
Total 135.463 223
a. Dependent Variable: Grade Point Average
b. Predictors: (Constant), SAT: mathematics part, SAT: verbal part
R square = SS regression/ SS total = 8.584/ 135.463
F = Mean Square regression / Mean square residual = 4.292/ 0.574 = 7.476
Wat betekent het als je R square heel hoog is maar je F-toets niet significant?
- Dit heeft te maken met je steekproef als die heel klein is dan is het moeilijk om
een effect te vinden ondanks dat de R square groot is.
Hoe zie je of een vergelijking/formule het beste het patroon van geobserveerde data laat
zien in een scatterplot?
- Als je ziet dat de data ongeveer in een lijn loopt. Zou lineair kunnen zijn namelijk.
Maar als je een wolkje of iets ziet met een uitschieter dan past dat niet bij
geobserveerde data.
- Elk stipje in een scatterplot staat voor een geobserveerde waarde van een
deelnemer.
OUTLIERS VERWIJDEREN
Wat is een outlier?
- Dit is een score die heel erg afwijkt van de rest van de data. Je moet hierop alert
zijn want het model kan daardoor verkeerde uitkomsten geven.
- Dit wordt ook wel bias genoemd. Dit kan je checken op 2 manieren:
o Residu statistiek → hoever de punt van de lijn ligt
o Influence statistiek → laat zien hoeveel invloed een punt heeft op het
model zoals Cook’s distance of Mahalanobis
1
,Casewise Diagnostics → tabel die gaat over residuen (errors) in de steekproef. Je kan zien
wat een outlier was. Je kijkt bij tabel Y4. Case 11 is de outlier want die past niet bij de rest
van de
waarden.
Case
Summaries → tabel die info geeft over welke cases mogelijk invloed hebben. Dus hoeveel
invloed heeft elke persoon/case op het regressiemodel? Hoe sterk zou het model
veranderen als we die case eruit zouden halen?
Cook’s distance → veranderd het regressie model als ik deze case verwijder? Als die groter is
dan 1 dan heeft de case invloed
Leverage → ligt deze persoon extreem op de x-as. Als je heel erg links of rechts dan is de
leverage hoog. Een punt kan dan de regressie naar zich toe trekken. Je maakt een range
2
,2 x (k +1)/n en 3 x (k+1)/n → k = aantal voorspellers, N = steekproefgrootte
Mahalanobis distance → Ligt deze persoon ver van het wolkje dus ver van de gemiddelde x-
waarden. Hoe groter die is hoe verder weg het stipje van het wolkje ligt.
DFB0_1 → hoe veranderd de constante als je de specifieke case verwijderd
DFB1_1 → hoe verwijderd de helling als je de specifieke case verwijderd
DFF_1 → hoeveel gaat de voorspelling erop vooruit als je de case verwijderd.
Een invloedrijke case hoeft niet de grootste residual te hebben. Je gaat er zo mee om:
- Eerst begrijpen waarom een case extreem is. Je mag niet zomaar iets verwijderen
en ook niet zeggen van Oh de Cook’s is hoog dus ik verwijder het. Je moet echt
weten welke variabel het is en of het misschien een combi is.
→ 3 mogelijke oorzaken/uitkomsten voor een outlier:
1. Het is oprecht een fout zoals een typefoutje. Dit kan je nog corrigeren.
2. Je persoon hoort niet tot de doelgroep. Stel je onderzoekt angstklachten en je hebt
iemand met psychose dan mag je deze persoon gewoon verwijderen.
3. De persoon hoort wel bij de doelgroep maar heeft gewoon extreme scores.
→ Je kan de scores minder extreem maken of verwijderen maar wat je ook kiest, je moet
altijd alles wat je doet kunnen uitleggen. Waarom doe je iets of waarom heb je dat zo
gedaan?
Wat is het verschil tussen unstandardized en standardized residuals? En wat is het voordeel?
- Ongestandaardiseerd →
o Dit zijn voorspellingsfouten gemeten in verschillende eenheden of
hetzelfde als de Y dus in euro’s of kilo’s.
- Gestandaardiseerd →
o Dit zijn de z-scores van de voorspellingsfouten in standaarddeviaties
waardoor je kan zeggen of de fout groot is ten opzichte van de rest van de
data.
3 vuistregels om te bepalen welke case een outlier is, volgens gestandaardiseerde residuals:
1. Een fout die meer is dan 3 standaarddeviaties
2. Meer dan 1% van de cases heeft een residu van 2,5 of hoger
3. Meer dan 5% van de cases heeft een residu van 2 of meer
MULTICOLLINEARITEIT
Voorbeeld van tegenstijdigheid tussen de b’s en de correlaties tussen de variabelen:
- Als de correlaties in de plus zijn dan wil dat zeggen dat als X toeneemt dat Y dat
ook doet. Maar als je regressie coefficienten/ b’s negatief zijn dan lijkt het juist
alsof ze dalen waardoor ze elkaar tegenspreken.
3
, Multicollineariteit → 2 of meerdere voorspellers in het model lijken zo sterk op elkaar dat ze
bijna hetzelfde meten.
3 manieren om multicollineariteit te checken:
1. Correlatie is groter dan 0.800 of 0.900
2. De tollerance is kleiner dan 0.100
3. De VIF is groter dan 10
Probleem met multicollineariteit:
1. Bouncing b’s → De b’s/helling geeft per variabel aan wat het effect is maar als de
voorspellers bijna hetzelfde zijn dan weet het model niet meer wie wat doet
waardoor de b’s kunnen schommelen. Ze kunnen daardoor negatief worden terwijl
de correlatie positief is. Hierdoor zijn de b’s niet betrouwbaar.
2. Het model wordt niet beter → Doordat voorspellers op elkaar lijken voegt de nieuwe
voorspeller bijna niks nieuws toe waardoor de verklaarde variantie R square niet toe
neemt en bijna hetzelfde blijft.
3. Doordat je b’s onbetrouwbaar zijn kun je niet bepalen welke voorspeller belangrijker
is → de b’s en beta’s kan je niet meer vergelijken omdat je niet meer weet wie wat
doet
4