Statistiek 2
Week 1
Hoorcollege 1.1
Correlatie en causaliteit.
Controleren voor andere variabelen.
Multivariate verbanden.
Vanuit Statistiek 1
- Spurieus verband: er is een verband tussen A en B, maar dit
verband is te verklaren door andere variabelen die zowel A als B
veroorzaken;
- Leidt tot de uitspraak: correlatie is geen causatie.
- Hoe stellen we wel causaliteit vast, drie criteria:
1. Er bestaat een verband tussen A en B (associatie).
2. B moet plaatsvinden na A (volgordelijkheid).
3. Het verband tussen A en B wordt niet verklaard door andere
factoren (alternatieve verklaringen zijn uitgesloten). – focus van
deze cursus
Alternatieve verklaringen uitsluiten
We controleren andere variabelen: het effect wegnemen:
1. Experimentele controle: in je onderzoeksdesign. Je hebt een
bepaalde interventie en je wijst de helft van de groep toe aan de
experimentele conditie en eentje aan de controle groep.
Volgordelijkheid gemanipuleerd.
Alternatieve verklaringen uitsluiten door randomisatie.
Zowel observeerbare als niet-observeerbare kenmerken
moeten gelijk zijn.
Hoort niet bij statistiek.
2. Statistische controle: in je data-analyse strategie.
Optie 1: onderzoek x-y verband binnen subgroepen->
vaak niet realistisch.
Optie 2: neem alternatieve verklaringen op in je
statistische model.
Multivariate relaties (3 of meer variabelen)
Alternatieve verklaringen opnemen in je statistische model.
o Moet je wel weten wat alternatieve verklaringen zijn.
o Dan kun je je interpretatie en analyses hierop aanpassen.
,Statistiek 2
o Voorkomt lurking variabels (sluimerende variabelen); variabelen
die niet zijn meegenomen in de studie maar wel een alternatieve
verklaring vormen.
Verbanden binnen deze multivariate relaties
1. Spurieus verband
- Wanneer beide variabelen samen hangen met derde variabelen en
de relatie tussen x en y verdwijnt als gecontroleerd wordt voor deze
derde variabele;
- Dus het geschatte verband tussen variabelen kan drastisch
veranderen, afhankelijk van de gekozen data-analyse strategie
(controle voor derde variabele).
2. Suppressie (onderdrukking)
- Aanvankelijk geen relatie tussen x en y, die relatie verschijnt zodra
je een derde variabele toevoegt.
- Bijvoorbeeld: er was aanvankelijk al een verschil tussen twee
groepen (één groep lagere beginscore);
- De supressor is dan de pre-test. – de derde variabele.
3. Simpsons paradox
- Verband tussen x en y wordt omgekeerd na het controleren voor
een derde variabele.
4. Kettingrelatie of mediatie
- Er zit een variabele tussen het verband tussen x en y. X1 heeft een
indirect effect op y, via mediator x2.
- De relatie tussen x en y verdwijnt zodra je de mediator meeneemt,
er gebeurt hetzelfde als bij het spurieus verband, maar er is sprake
van een mediator en niet een schijnverband.
- Speelt belangrijke rol in interventie studies; waarom werkt de
interventie en hoe.
5. Interactie of moderatie
- Relatie tussen x1 en y hangt af van het niveau van x2, de relatie
tussen x1 en y ziet er anders uit voor verschillende levels van x2.
- Zodra je x2 meeneemt als moderator heffen twee verschillende
groepen elkaar (bijvoorbeeld op), maar de derde variabele heeft dus
wel degelijk invloed;
- Je vindt verschillende verbanden voor de subgroepen.
- -> in het plaatje gaat de pijl naar een andere pijl.
6. Meerdere oorzaken
- Meerdere voorspellers worden tegelijk meegenomen en meerder
verschillende variabelen verklaren gezamenlijk verschillen in y.
- Deze oorzaken zijn meestal gecorreleerd (confounding);
,Statistiek 2
- Het verband tussen x en t verandert (deels) wanneer een extra x
wordt opgenomen in het model.
- Soms zijn de voorspellers zelf helemaal niet met elkaar
gecorreleerd; de relatie tussen x en y zouden dan helemaal niet
veranderen wanneer een extra x wordt opgenomen in het model.
Belang van correlationele verbanden
Om te achterhalen welke subgroepen problemen ervaren en baat
kunnen hebben bij interventie.
Samengevat:
- Wel causatie: vaak is het nuttig om extra variabelen op te nemen in
een statistisch model en rekening te houden met:
o Confounding: vermijden sluimerende variabelen.
o Interactie-effecten: verschilt het verband tussen x en y tussen
niveaus van x2?
o Meerdere oorzaken: verklaren variabelen x1 en x2
onafhankelijke verschillen in y of verklaart x2 verschillen in y,
naast verschillen die al door x1 verklaard worden?
o Ketting relaties (mediatie): directe en indirecte effecten.
, Statistiek 2
Hoorcollege 1.2
Herhaling van enkelvoudige lineaire regressie: Hangt klasomvang samen
met schoolprestaties?
Hypothese toetsen
1. Stellen van een hypothese:
- Hypothese zonder richting; x hangt samen met y. (bijvoorbeeld als
er heel veel tegenstrijdige informatie is uit eerdere onderzoeker).
- Met richting; positief verband: hogere x voorspelt hogere y.
- Met richting; negatief verband: hogere x voorspelt hogere y.
Verwachting in dit onderzoek: hoe grotere de klassen hoe slechter de
leerprestaties – negatief verband.
2. Kijken naar het onderzoeksdesign en meetniveau van de variabelen.
In ons voorbeeld:
- Design: Cross-sectionele studie, onder willekeurig geselecteerde
basisscholen in Nederland
- Variabelen en meetniveau:
o Class size: gemeten als gemiddelde klasgrootte van een
school. -> kwantitatieve voorspeller.
o Academic performance: de school’s gemiddelde score op een
gestandaardiseerde test. -> kwantitatieve criterium
(uitkomstmaat).
3. Beschrijvende statistieken:
- Univariate statistieken: beschrijven van één variabele.
o Vorm: klokvormig (scheef/uniform/bimodaal)
o Locatie: gemiddelde
o Spreiding: standaard deviatie.
- Spreidingsdiagrammen: visualiseren het verband tussen een
uitkomst (y) en voorspellende (x) variabele:
o Elke stip is een observatie.
o Is er een lineair model geschikt om het verband te
beschrijven? -> ja, dan gebruiken we de kleinste
kwaadratenmethode om het lineaire model te schatten (best
passende rechte lijn dichtbij de datapunten).
Toy examples: veelal kleine en simplistische datasets:
Week 1
Hoorcollege 1.1
Correlatie en causaliteit.
Controleren voor andere variabelen.
Multivariate verbanden.
Vanuit Statistiek 1
- Spurieus verband: er is een verband tussen A en B, maar dit
verband is te verklaren door andere variabelen die zowel A als B
veroorzaken;
- Leidt tot de uitspraak: correlatie is geen causatie.
- Hoe stellen we wel causaliteit vast, drie criteria:
1. Er bestaat een verband tussen A en B (associatie).
2. B moet plaatsvinden na A (volgordelijkheid).
3. Het verband tussen A en B wordt niet verklaard door andere
factoren (alternatieve verklaringen zijn uitgesloten). – focus van
deze cursus
Alternatieve verklaringen uitsluiten
We controleren andere variabelen: het effect wegnemen:
1. Experimentele controle: in je onderzoeksdesign. Je hebt een
bepaalde interventie en je wijst de helft van de groep toe aan de
experimentele conditie en eentje aan de controle groep.
Volgordelijkheid gemanipuleerd.
Alternatieve verklaringen uitsluiten door randomisatie.
Zowel observeerbare als niet-observeerbare kenmerken
moeten gelijk zijn.
Hoort niet bij statistiek.
2. Statistische controle: in je data-analyse strategie.
Optie 1: onderzoek x-y verband binnen subgroepen->
vaak niet realistisch.
Optie 2: neem alternatieve verklaringen op in je
statistische model.
Multivariate relaties (3 of meer variabelen)
Alternatieve verklaringen opnemen in je statistische model.
o Moet je wel weten wat alternatieve verklaringen zijn.
o Dan kun je je interpretatie en analyses hierop aanpassen.
,Statistiek 2
o Voorkomt lurking variabels (sluimerende variabelen); variabelen
die niet zijn meegenomen in de studie maar wel een alternatieve
verklaring vormen.
Verbanden binnen deze multivariate relaties
1. Spurieus verband
- Wanneer beide variabelen samen hangen met derde variabelen en
de relatie tussen x en y verdwijnt als gecontroleerd wordt voor deze
derde variabele;
- Dus het geschatte verband tussen variabelen kan drastisch
veranderen, afhankelijk van de gekozen data-analyse strategie
(controle voor derde variabele).
2. Suppressie (onderdrukking)
- Aanvankelijk geen relatie tussen x en y, die relatie verschijnt zodra
je een derde variabele toevoegt.
- Bijvoorbeeld: er was aanvankelijk al een verschil tussen twee
groepen (één groep lagere beginscore);
- De supressor is dan de pre-test. – de derde variabele.
3. Simpsons paradox
- Verband tussen x en y wordt omgekeerd na het controleren voor
een derde variabele.
4. Kettingrelatie of mediatie
- Er zit een variabele tussen het verband tussen x en y. X1 heeft een
indirect effect op y, via mediator x2.
- De relatie tussen x en y verdwijnt zodra je de mediator meeneemt,
er gebeurt hetzelfde als bij het spurieus verband, maar er is sprake
van een mediator en niet een schijnverband.
- Speelt belangrijke rol in interventie studies; waarom werkt de
interventie en hoe.
5. Interactie of moderatie
- Relatie tussen x1 en y hangt af van het niveau van x2, de relatie
tussen x1 en y ziet er anders uit voor verschillende levels van x2.
- Zodra je x2 meeneemt als moderator heffen twee verschillende
groepen elkaar (bijvoorbeeld op), maar de derde variabele heeft dus
wel degelijk invloed;
- Je vindt verschillende verbanden voor de subgroepen.
- -> in het plaatje gaat de pijl naar een andere pijl.
6. Meerdere oorzaken
- Meerdere voorspellers worden tegelijk meegenomen en meerder
verschillende variabelen verklaren gezamenlijk verschillen in y.
- Deze oorzaken zijn meestal gecorreleerd (confounding);
,Statistiek 2
- Het verband tussen x en t verandert (deels) wanneer een extra x
wordt opgenomen in het model.
- Soms zijn de voorspellers zelf helemaal niet met elkaar
gecorreleerd; de relatie tussen x en y zouden dan helemaal niet
veranderen wanneer een extra x wordt opgenomen in het model.
Belang van correlationele verbanden
Om te achterhalen welke subgroepen problemen ervaren en baat
kunnen hebben bij interventie.
Samengevat:
- Wel causatie: vaak is het nuttig om extra variabelen op te nemen in
een statistisch model en rekening te houden met:
o Confounding: vermijden sluimerende variabelen.
o Interactie-effecten: verschilt het verband tussen x en y tussen
niveaus van x2?
o Meerdere oorzaken: verklaren variabelen x1 en x2
onafhankelijke verschillen in y of verklaart x2 verschillen in y,
naast verschillen die al door x1 verklaard worden?
o Ketting relaties (mediatie): directe en indirecte effecten.
, Statistiek 2
Hoorcollege 1.2
Herhaling van enkelvoudige lineaire regressie: Hangt klasomvang samen
met schoolprestaties?
Hypothese toetsen
1. Stellen van een hypothese:
- Hypothese zonder richting; x hangt samen met y. (bijvoorbeeld als
er heel veel tegenstrijdige informatie is uit eerdere onderzoeker).
- Met richting; positief verband: hogere x voorspelt hogere y.
- Met richting; negatief verband: hogere x voorspelt hogere y.
Verwachting in dit onderzoek: hoe grotere de klassen hoe slechter de
leerprestaties – negatief verband.
2. Kijken naar het onderzoeksdesign en meetniveau van de variabelen.
In ons voorbeeld:
- Design: Cross-sectionele studie, onder willekeurig geselecteerde
basisscholen in Nederland
- Variabelen en meetniveau:
o Class size: gemeten als gemiddelde klasgrootte van een
school. -> kwantitatieve voorspeller.
o Academic performance: de school’s gemiddelde score op een
gestandaardiseerde test. -> kwantitatieve criterium
(uitkomstmaat).
3. Beschrijvende statistieken:
- Univariate statistieken: beschrijven van één variabele.
o Vorm: klokvormig (scheef/uniform/bimodaal)
o Locatie: gemiddelde
o Spreiding: standaard deviatie.
- Spreidingsdiagrammen: visualiseren het verband tussen een
uitkomst (y) en voorspellende (x) variabele:
o Elke stip is een observatie.
o Is er een lineair model geschikt om het verband te
beschrijven? -> ja, dan gebruiken we de kleinste
kwaadratenmethode om het lineaire model te schatten (best
passende rechte lijn dichtbij de datapunten).
Toy examples: veelal kleine en simplistische datasets: