College 1: Causal inference & DAGs
Epidemiologie
De wetenschap die de verspreiding van gezondheid gerelateerde staten en gebeurtenissen (ziekten)
onder de bevolking bestudeert (ter bevordering van de volksgezondheid).
Causaal (oorzakelijk) verband
Op individueel niveau, een behandeling heeft een causaal effect als de uitkomst na behandeling 1
anders is dan de uitkomst na behandeling 2.
Potentiele uitkomsten Y=a=1 Y=a=0
- 1= behandeling gebruikt; 0= behandeling niet gebruikt
de uitkomst van behandeling gebruikt (a=1) is niet gelijk aan de uitkomst van de behandeling niet
gebruikt (a=0): als een individu een product gebruikt, kan bij diezelfde individu het niet gebruiken van
het product niet meer worden getest:
Individuele causale verbanden zijn niet te observeren door missende data op potentiele
uitkomsten: gemiddeld causaal verband
Causale inferentie is een probleem van missing data
Aan gemiddelde causale verbanden kunnen conclusies worden gesteld als aan 3 veronderstellingen
worden voldaan:
1. Positivity: er is een controlegroep
2. Concistency (consistentie): de behandeling is duidelijk gedefinieerd (vb: obesitas)
3. Exchangeability (uitwisselbaarheid): het wisselen van groepen zonder dat dit effect heeft op de
uitkomst. De potentiele uitkomst is onafhankelijk van de behandeling die is ontvangen
randomiseren.
Randomised Controlled Trail (RCT)
Gerandomiseerd onderzoek met controlegroep (hoogste vorm van wetenschappelijk bewijs = de
gouden standaard = beste methode). Een groep personen wordt random (aselect) over
onderzoeksgroepen verdeeld (=verwisselbaarheid). Aselect betekent dat iedereen evenveel kans
heeft om in iedere onderzoeksgroep te worden opgenomen, zodat er geen verschil ontstaat tussen de
onderzoeksgroepen (uitsluiten confounding) hoge interne validiteit
Nadeel:
1. Beperkte generaliseerbaarheid (lage externe validiteit) door behandelingsprotocol en
patiëntselectie
2. Praktische en ethische overwegingen: soms geen vrijwilligers of follow up
Observatiestudie (alternatief voor RCT: onderzoeker verzameld gegevens)
- echte uitkomsten
- beschikbaarheid van data
- hoge externe validiteit
- Nadeel: lage interne validiteit door gebrek aan uitwisselbaarheid
Associatie
Het verbinden van verschillende verbanden met elkaar gebaseerd op vakkennis, theorieën en logische
redenatie. Associatie staat niet gelijk aan causaliteit causale conclusies kunnen worden getrokken
als die 3 assumpties waar zijn.
Manieren om te corrigeren (= bereiken van uitwisseling):
1. Stratificatie: originele populatie opsplitsen (inzoomen op een deel van de populatie) op basis van
kenmerken (1 of 2 confounders), deze lagen apart analyseren en vergelijk de uitkomst met of zonder
blootstelling. Nadeel: bij 1 en/of 2 confounders toepasbaar
2. Regressieanalyse (=het kwantificeren van relatie van de uitkomst variabele met de blootstelling,
terwijl gecorrigeerd is voor andere variabelen): corrigeren van meerdere confounders (en/of
intermediaire variabelen) tegelijkertijd
1
, Traditionele selectie strategieën (stapsgewijs):
1. Begin met alle variabelen en verwijder steeds de minst significante (met hoogte P-waarde), tot een
bepaalde grens. Nadeel: slechte methode doordat data al geselecteerd is en significantie niet het
belangrijkste is hierdoor mis je variabelen
2. Variabele erin houden als het verwijderen leidt tot substantiële verandering van de uitkomst.
Nadeel: data al geselecteerd en geen achterliggende theorie
3. Het corrigeren van confounders (=geassocieerd met blootstelling, uitkomst en zitten niet in de
causale ‘pathway’ van bloostelling en uitkomst). Nadeel: toename van bias
Oplossing: Directed Acyclic Graphs (DAGs)
DAGs worden gebruikt om problemen van traditionele strategieën te verhelpen. Het is een grafische
weergave van de onderliggende causale structuren. DAGs coderen een priori (‘zonder vooraf’)
causale kennis. Het heeft bepaalde regels:
1. Elke pijl presenteert een mogelijke causaal verband.
2. Geen pijl is ontbreken van causaal verband
3. Directed: elke connectie is een pijl
4. Acyclisch: een pad komt niet terug bij het beginpunt
Terminologie DAGs:
1. Pad: een route tussen blootstelling & uitkomst (hoeft niet richting van pijl te volgen)
2. Causaal pad: route die de richting van de pijl volgt
3. Backdoor pad: route die de richting van de pijl niet volgt
4. Open pad: de pijl die naar uitkomst wijst; collider (= waar de pijlen samen komen) is een
variabele die dit tegengaat (backdoor pad kan nog steeds een open pad zijn)
Een open pad blokkeren (=corrigeren) voor de variabele langs het pad
Causale inferentie
Causale effecten zijn niet zichtbaar, associaties wel. Een associatie wordt uitgedrukt als een
coëfficiënt in de regressievergelijking. De associatie van blootstelling (X) en uitkomst (Y) is de
combinatie van alle open paden tussen deze 2.
Causale inferentie: het verwijderen van associaties van niet-causale elementen door blokkeren
(=corrigeren) van backdoor paden en/of isoleren van partieel (deel) effect, om vervolgens in het
regressiemodel te doen.
Confounding: een bias gecreëerd door een gemeenschappelijke oorzaak voor blootstelling en
uitkomst (=selectie-bias).
Confounder (=geassocieerd met blootstelling, uitkomst en zitten niet in de causale pad van
bloostelling en uitkomst): variabele gebruiken om confounding uit te sluiten.
Intermediaire variabele: variabele in een causale pad tussen blootstelling en uitkomst.
Conclusie
Altijd corrigeren voor confounders (uitwisseling)
Nooit corrigeren voor colliders (leidt tot deblokkeren)
Soms voor een intermediaire variabele (niet als het hele effect wil onderzoeken)
DAGs gebruiken voor corrigeren
Collider
Blootstelling (X) Uitkomst (Y)
Confounder
2
Intermediaire