Wanneer gebruik je wat · Assumpties · SPSS-output · Valkuilen
Gebaseerd op Field: Discovering Statistics | H2, 3, 6, 8, 9, 11, 12, 13, 14, 15, 16, 17
0. GROTE BESLISBOOM — Welke toets kies ik?
Situatie Juiste toets
2 gepaarde metingen, 1 groep Gepaarde t-toets
(normaal)
2 gepaarde metingen, 1 groep Wilcoxon Signed-Rank
(scheef/ordinaal)
2 onafhankelijke groepen (normaal) Onafhankelijke t-toets
2 onafhankelijke groepen Mann-Whitney U
(scheef/ordinaal, kleine N)
3+ groepen between-subjects (normaal) One-way ANOVA
3+ groepen between-subjects Kruskal-Wallis
(scheef/ordinaal)
3+ groepen between-subjects + ANCOVA
continue covariaat
2 categoriale factoren between- Factoriële ANOVA (2-weg)
subjects
1 factor, herhaalde metingen (normaal) One-way within-subjects ANOVA
1 factor, herhaalde metingen Friedman
(scheef/ordinaal)
Within- + between-subjects factor Mixed ANOVA
tegelijk
Meerdere gecorreleerde afhankelijke MANOVA
variabelen, groepen vergelijken
Samenhang 2 continue, normaal Pearson r
verdeelde variabelen
Samenhang 2 ordinale of scheve Spearman ρ
variabelen
Voorspelling: 1 continue predictor → 1 Enkelvoudige regressie
continue uitkomst
Voorspelling: meerdere predictoren → Meervoudige regressie
1 continue uitkomst
Unieke bijdrage extra predictoren Hiërarchische regressie
toetsen (theorie-gedreven)
Effect van X op Y afhankelijk van Moderatieanalyse (PROCESS Model 1)
moderator M?
Effect van X op Y verloopt via mediator Mediatieanalyse (PROCESS Model 4 + bootstrap)
M?
Categorische predictor in regressie Dummycodering (k−1 dummies)
1. BASISCONCEPTEN — SPINE & PHOENIX (H2 + H3)
▌ Centrale tendentie & verdeling
, Concept Wat het is Let op
Gemiddelde Rekenkundig middelpunt Gevoelig voor uitschieters
Mediaan Middelste waarde na sorteren Robuust — gebruik bij scheve
verdeling
Modus Meest voorkomende waarde Enige maat voor nominale data
Positief scheef Staart rechts → Modus < Mediaan < Gemiddelde trekt mee naar
Gemiddelde uitschieters rechts
Negatief scheef Staart links → Gemiddelde < Mediaan Omgekeerde
< Modus
▌ Standaardfout & Betrouwbaarheidsinterval
Concept Betekenis Vuistregel
Standaardfout (SEM) Nauwkeurigheid van het Groter N → kleinere SEM →
steekproefgemiddelde als schatting van preciezere schatting
de populatie. SEM = SD / √N
95% CI Als je de procedure oneindig herhaalt, NIET: 'er is 95% kans dat de
bevat 95% van de intervallen de ware ware waarde erin zit'
waarde
Smal CI Grote N of kleine SD → meer precisie Geeft meer info dan alleen p-
waarde
▌ NHST — Nulhypothesetoetsing
Concept Uitleg
p-waarde P(data | H0) — kans op deze uitkomst als H0 waar is. NIET de kans dat H0
waar is.
α = .05 Drempelwaarde. Als p < α → H0 verwerpen. Conventie, geen wet.
Type I fout (α) H0 verwerpen terwijl H0 wáár is. Vals positief. Kans = α
Type II fout (β) H0 NIET verwerpen terwijl H0 onwáár is. Vals negatief. Kans = β
Power (1−β) Kans dat je een echt effect detecteert. Streef naar ≥ .80
Power verhogen Groter N / betere meting / grotere α / eenzijdig toetsen
▌ Effectgrootte — richtlijnen Cohen
Maat Gebruik Klein Middelgroot Groot
Cohen's d Verschil 2 gemiddelden in SD- .20 .50 .80
eenheden
r (Pearson) Correlatie / effectgrootte bij .10 .30 .50
contrast
R² Proportie verklaarde variantie .02 .13 .26
regressie
η² (eta²) Proportie verklaarde variantie .01 .06 .14
ANOVA
f (Cohen) Effectgrootte ANOVA (power- .10 .25 .40
analyse)
▌ Het GLM — rode draad
Uitkomst_i = Model + Fout_i
Alle toetsen (t, ANOVA, regressie, ANCOVA, MANOVA) zijn varianten van dit model.
, Model = de voorspelde waarde op basis van predictoren.
Fout (residu) = wat het model NIET verklaart.
F = (verklaarde variantie / df_model) / (onverklaarde variantie / df_residu)
2. AANNAMES & BIAS (H6) — wat toets je vóór alles
▌ De vijf kernassumpties van het lineaire model
Aanname Wat het betekent Hoe toets je het? Geschonden? Dan...
Normaliteit Residuen (NIET ruwe Q-Q plot, Shapiro-Wilk Niet-parametrisch of
residuen data!) normaal verdeeld (klein N) bootstrap; bij groot N
weinig probleem (CLT)
Homoscedasticiteit Variantie residuen Residu-plot Welch's t-toets,
constant over range van Ŷ (trechtervorm = robuuste SE, Games-
probleem), Levene's / Howell
Breusch-Pagan
Lineariteit Relatie X→Y is lineair Scatterplot X vs Y Transformatie of niet-
lineair model
Onafhankelijkheid Residuen correleren niet Durbin-Watson ≈ 2 Multilevel model of
met elkaar tijdreeksanalyse
Geen perfecte Predictoren niet perfect VIF / Tolerance Verwijder predictor,
multicollineariteit gecorreleerd centreer, of gebruik
PCA
▌ Multicollineariteit — drempelwaarden
Maat Formule Drempelwaarde Betekenis
VIF 1 / Tolerance VIF > 10 = ernstig, > 5 = Hoe sterk is deze predictor te
zorgpunt voorspellen uit de andere?
Tolerance 1 − R²_predictor < .10 = ernstig probleem Fractie variantie die NIET
gedeeld wordt met andere
predictoren
▌ Uitschieters & invloedrijke gevallen
Maat Drempelwaarde Wat meet het?
Gestandaardiseerd |z| > 2 of 3 Hoe ver ligt de score van de regressielijn?
residu
Leverage (hat value) > 2(k+1)/N Extreme predictor-waarden (ver van het gemiddelde
van X)
Cook's D >1 Algehele invloed op regressieschattingen — MEEST
gebruikt
DFBeta |DFBeta| > 1 Verandering in een specifieke b-waarde bij
verwijdering van het geval
Mahalanobis afstand χ² toets Multivariate uitschieter in de predictor-ruimte
SPSS: Casewise Diagnostics → gestandaardiseerde residuen
SPSS: Residuals Statistics → Cook's D, Leverage
SPSS: Plots → P-P plot of Q-Q plot voor normaliteit residuen
SPSS: Collinearity Statistics in Coefficients → VIF & Tolerance