Statistiek III
WEEK 1: INTRODUCTIE
ONDERZOEKSDESIGN:
Antwoord geven op een vooraf opgestelde onderzoeksvraag:
› Verschillen mannen van vrouwen wat betreft gemiddelde pieker-score?
› Maakt leeftijd uit?
› En of iemand wel/geen kinderen heeft?
› En de leeftijd van de kinderen? …
Operationalisatie: op welke manier meten we de variabelen?
› Leeftijd: Geboortedatum? Alleen aantal jaar oud? Indeling in groepen?
› Worry-scale: Gebruik “validated and reliable” instrument.
De wijze waarop je de variabelen gemeten hebt, bepaalt welke statistische methodes
gebruikt kunnen worden.
STATISTISCHE METHODEN:
Twee variabelen:
› Two-sample 𝑡
› ANOVA (two groups)
› Simple linear regression with 1 dummy to indicate gender (2 groups)
Drie & vier variabelen:
› Two-sample 𝑡
› ANOVA (three / four groups)
› Simple linear regression with dummy to indicate gender ( groups)
∞ variabelen:
› Two-sample 𝑡
› ANOVA (∞ groups)
› Simple linear regression 1 continuous predictor (∞ groups)
MODELLEN:
Wat is een model?
› Een representatie van de realiteit.
› Het geeft de essentie weer en laat de niet-essentie (noise, ruis) buiten beschouwing.
› 𝑦 = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏𝑝𝑥𝑝 + 𝑒
,Statistiek is er niet zo goed in om vast te stellen of een model goed past (model fit), maar
is er wel goed in om vast te stellen welk van twee modellen beter past (nested models).
MODEL COMPARISON:
› Alle traditionele tests kunnen herschreven worden als model comparison.
(𝑡-tests, ANOVA, regression)
› Model comparison kan meer dan de traditionele tests en voorkomt P-hacking.
Idee van model comparison:
We fitten twee verschillende (nested) modellen en vergelijken die met elkaar.
Model 1: 𝑦 = 𝑏0+𝑏1𝑥1
Model 2: 𝑦 = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2
› Hoeveel verbetert de fit als ik 𝑏2𝑥2 toevoeg aan het model,
bovenop dat wat er al in het model zit?
› Is het de moeite waard om de extra voorspeller(s) te behouden?
› Ik maak het model complexer … weegt de verbeterde fit op tegen extra complexiteit?
Voorbeeld I:
Wordt de variatie in WORRY-scores verklaard door verschillen in gender (man/vrouw)?
Je kunt dit testen met:
› Two-sample 𝑡,
› ANOVA (two groups)
› Simple linear regression with 1 dummy to indicate gender (two groups)
Model comparison:
Model 1: 𝑦 = 𝑏0
Model 2: 𝑦 = 𝑏0+𝑏1𝐺𝐸𝑁𝐷𝐸𝑅
, Voorbeeld II:
Als we iemands gender weten, verklaren verschillen in leeftijd dan verschillen in
WORRY-scores?
› Gecontroleerd voor gender (controlled for gender)
Je kunt dit testen met:
› Multiple regression model
› ANCOVA
Model comparison:
Model 1: 𝑦 = 𝑏0
Model 2: 𝑦 = 𝑏0+𝑏1 𝐺𝐸𝑁𝐷𝐸𝑅 +𝑏2 𝐴𝐺𝐸
Voorbeeld III:
Als we iemands leeftijd én gender weten, verklaren verschillen in of iemand kinderen
heeft (yes/no) en de leeftijd van het oudste kind dan verschillen in WORRY-scores?
› Controlled for gender & age.
Je kunt dit NIET testen met traditionele tests:
› Je kunt testen of 𝑏𝑝𝑎𝑟𝑒𝑛𝑡 = 0, ook kan je testen of 𝑏𝑎𝑔𝑒𝑐ℎ𝑖𝑙𝑑 = 0, maar je kan niet testen of
beide tegelijkertijd gelijk zijn aan 0.
Model comparison:
Model 1: 𝑦 = 𝑏0
Model 2: 𝑦 = 𝑏0+ 𝑏1 𝐺𝐸𝑁𝐷𝐸𝑅 + 𝑏2 𝐴𝐺𝐸 + 𝑏3 𝑃𝐴𝑅𝐸𝑁𝑇 + 𝑏4 𝐴𝐺𝐸_𝐶𝐻𝐼𝐿𝐷
P-VALUES & P-HACKING:
P-value = probability of obtaining test results at least as extreme as the result actually
observed, under the assumption that the null hypothesis is correct.
(assuming samples of the same fixed size, drawn from the same population)
Je moet strenge regels volgen om P-values te kunnen toepassen en interpreteren:
› Je mag een P-value maar 1 keer berekenen.
(tenzij je een of andere aanpassing of correctie maakt zoals Bonferroni)
› Er moet voldaan zijn aan de assumpties.
› Je moet de steekproefgrootte vooraf specificeren.
Eerlijk …
Wie doet dit echt? Wen je daarom aan om zo min mogelijk P-values te gebruiken!
, P-hacking = het uitvoeren van heel veel statistische tests op dezelfde data en alleen die
resultaten vermelden die significant zijn.
Gangbare output nodigt uit tot P-hacking!
› Elke parameter heeft een toets en dus ook een P-value.
P-values vertellen NIETS nuttigs: Alleen of er wel of niet een effect is.
Dus … P-values beter niet … wat dan wel?
Wat is de grootte van het effect?
› Estimation.
● Kijk naar gemiddelden, standaarddeviaties, correlaties, effect sizes, Cohen’s d en
CI’s. (eventueel met (Bonferroni) correctie).
› Graphical analysis.
› Model comparison.
● Soms ook met P-values, maar dan is het er slechts 1.
› Bayesian statistics.
● Beperking: Lastiger in gebruik.
WEEK 1: INTRODUCTIE
ONDERZOEKSDESIGN:
Antwoord geven op een vooraf opgestelde onderzoeksvraag:
› Verschillen mannen van vrouwen wat betreft gemiddelde pieker-score?
› Maakt leeftijd uit?
› En of iemand wel/geen kinderen heeft?
› En de leeftijd van de kinderen? …
Operationalisatie: op welke manier meten we de variabelen?
› Leeftijd: Geboortedatum? Alleen aantal jaar oud? Indeling in groepen?
› Worry-scale: Gebruik “validated and reliable” instrument.
De wijze waarop je de variabelen gemeten hebt, bepaalt welke statistische methodes
gebruikt kunnen worden.
STATISTISCHE METHODEN:
Twee variabelen:
› Two-sample 𝑡
› ANOVA (two groups)
› Simple linear regression with 1 dummy to indicate gender (2 groups)
Drie & vier variabelen:
› Two-sample 𝑡
› ANOVA (three / four groups)
› Simple linear regression with dummy to indicate gender ( groups)
∞ variabelen:
› Two-sample 𝑡
› ANOVA (∞ groups)
› Simple linear regression 1 continuous predictor (∞ groups)
MODELLEN:
Wat is een model?
› Een representatie van de realiteit.
› Het geeft de essentie weer en laat de niet-essentie (noise, ruis) buiten beschouwing.
› 𝑦 = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏𝑝𝑥𝑝 + 𝑒
,Statistiek is er niet zo goed in om vast te stellen of een model goed past (model fit), maar
is er wel goed in om vast te stellen welk van twee modellen beter past (nested models).
MODEL COMPARISON:
› Alle traditionele tests kunnen herschreven worden als model comparison.
(𝑡-tests, ANOVA, regression)
› Model comparison kan meer dan de traditionele tests en voorkomt P-hacking.
Idee van model comparison:
We fitten twee verschillende (nested) modellen en vergelijken die met elkaar.
Model 1: 𝑦 = 𝑏0+𝑏1𝑥1
Model 2: 𝑦 = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2
› Hoeveel verbetert de fit als ik 𝑏2𝑥2 toevoeg aan het model,
bovenop dat wat er al in het model zit?
› Is het de moeite waard om de extra voorspeller(s) te behouden?
› Ik maak het model complexer … weegt de verbeterde fit op tegen extra complexiteit?
Voorbeeld I:
Wordt de variatie in WORRY-scores verklaard door verschillen in gender (man/vrouw)?
Je kunt dit testen met:
› Two-sample 𝑡,
› ANOVA (two groups)
› Simple linear regression with 1 dummy to indicate gender (two groups)
Model comparison:
Model 1: 𝑦 = 𝑏0
Model 2: 𝑦 = 𝑏0+𝑏1𝐺𝐸𝑁𝐷𝐸𝑅
, Voorbeeld II:
Als we iemands gender weten, verklaren verschillen in leeftijd dan verschillen in
WORRY-scores?
› Gecontroleerd voor gender (controlled for gender)
Je kunt dit testen met:
› Multiple regression model
› ANCOVA
Model comparison:
Model 1: 𝑦 = 𝑏0
Model 2: 𝑦 = 𝑏0+𝑏1 𝐺𝐸𝑁𝐷𝐸𝑅 +𝑏2 𝐴𝐺𝐸
Voorbeeld III:
Als we iemands leeftijd én gender weten, verklaren verschillen in of iemand kinderen
heeft (yes/no) en de leeftijd van het oudste kind dan verschillen in WORRY-scores?
› Controlled for gender & age.
Je kunt dit NIET testen met traditionele tests:
› Je kunt testen of 𝑏𝑝𝑎𝑟𝑒𝑛𝑡 = 0, ook kan je testen of 𝑏𝑎𝑔𝑒𝑐ℎ𝑖𝑙𝑑 = 0, maar je kan niet testen of
beide tegelijkertijd gelijk zijn aan 0.
Model comparison:
Model 1: 𝑦 = 𝑏0
Model 2: 𝑦 = 𝑏0+ 𝑏1 𝐺𝐸𝑁𝐷𝐸𝑅 + 𝑏2 𝐴𝐺𝐸 + 𝑏3 𝑃𝐴𝑅𝐸𝑁𝑇 + 𝑏4 𝐴𝐺𝐸_𝐶𝐻𝐼𝐿𝐷
P-VALUES & P-HACKING:
P-value = probability of obtaining test results at least as extreme as the result actually
observed, under the assumption that the null hypothesis is correct.
(assuming samples of the same fixed size, drawn from the same population)
Je moet strenge regels volgen om P-values te kunnen toepassen en interpreteren:
› Je mag een P-value maar 1 keer berekenen.
(tenzij je een of andere aanpassing of correctie maakt zoals Bonferroni)
› Er moet voldaan zijn aan de assumpties.
› Je moet de steekproefgrootte vooraf specificeren.
Eerlijk …
Wie doet dit echt? Wen je daarom aan om zo min mogelijk P-values te gebruiken!
, P-hacking = het uitvoeren van heel veel statistische tests op dezelfde data en alleen die
resultaten vermelden die significant zijn.
Gangbare output nodigt uit tot P-hacking!
› Elke parameter heeft een toets en dus ook een P-value.
P-values vertellen NIETS nuttigs: Alleen of er wel of niet een effect is.
Dus … P-values beter niet … wat dan wel?
Wat is de grootte van het effect?
› Estimation.
● Kijk naar gemiddelden, standaarddeviaties, correlaties, effect sizes, Cohen’s d en
CI’s. (eventueel met (Bonferroni) correctie).
› Graphical analysis.
› Model comparison.
● Soms ook met P-values, maar dan is het er slechts 1.
› Bayesian statistics.
● Beperking: Lastiger in gebruik.