Samenvatting
Storende variabelen kunnen extra variatie in de afhankelijke variabele veroorzaken, waardoor het effect
van een manipulatie moeilijker zichtbaar wordt. Variabelen die samenhangen met de afhankelijke
variabele maar niet met de manipulatie heten covariaten en kunnen via statistische controle worden
meegenomen in de analyse. Hoewel experimentele controle meestal beter is, wordt statistische controle
vaak gebruikt wanneer random toewijzing niet mogelijk is, zoals bij quasi-experimenten.
Voorbeeld: Bij onderzoek naar het verband tussen roken en overlijdensrisico kan leeftijd een storende
variabele zijn, omdat leeftijd ook invloed heeft op overlijdensrisico. Door leeftijd als covariaat in de
analyse op te nemen, wordt de invloed van leeftijd eruit gefilterd. Zo kan beter worden bepaald hoeveel
effect roken zelf heeft op het overlijdensrisico.
Studietaak 5.1 – Covariantieanalyse (ANCOVA)
Hoofdstuk 28 Covariantie-analyse
28.1 Inleiding
Experimentele controle (thema 4) vermindert ruis door controlevariabelen in het onderzoeksdesign te
manipuleren of constant te houden. Statistische controle vermindert ruis door extra gemeten variabelen
(covariaten) in de statistische analyse mee te nemen. Dit zijn dan variabele die niet deel zijn van het
experimentele design, maar het doel hebben om residuele variantie in de afhankelijke variabele
(onverklaarde variantie) te verklaren.
Hierdoor wordt onverklaarde variantie in de afhankelijke variabele verminderd en wordt het effect van de
manipulatie duidelijker zichtbaar. Een ANOVA die één of meer covariaten in de analyse meeneemt wordt
een covariantieanalyse genoemd, afgekort met ANCOVA.
28.1.1 De logica achter covariaten
Een covariaat is een variabele die samenhangt met de afhankelijke variabele en helpt om deze te
voorspellen of verklaren. Ze worden gebruikt wanneer experimentele controle niet mogelijk is, zodat hun
invloed statistisch kan worden gecontroleerd. Soms wordt elke storende variabele een covariaat
genoemd, maar strikt genomen is een confounder een variabele die ook samenhangt met andere
predictoren in het model. In deze tekst wordt de gangbare definitie gevolgd waarbij een covariaat alleen
variantie met de afhankelijke variabele deelt en niet met andere predictoren in het model.
28.1.1.1 Voorbeeld: roken. Leeftijd en overlijdensrisico
Bij onderzoek naar het verband tussen roken en overlijdensrisico kan leeftijd als covariaat worden
opgenomen. Leeftijd beïnvloedt namelijk ook het overlijdensrisico en kan het verband tussen roken en
overlijdensrisico vertroebelen. Door eerst de invloed van leeftijd te verklaren, wordt duidelijker hoeveel
effect roken zelf heeft op het overlijdensrisico.
1
, 28.1.1.2 Covariaten filteren variantie van storende variabelen
Een covariaat kan worden toegevoegd wanneer deze samenhangt met de afhankelijke variabele en
daardoor een deel van de variantie in die variabele kan verklaren. Deze verklaarde variantie wordt gezien
als storende variantie of ruis die niet door het experiment zelf wordt veroorzaakt. Door deze ruis
statistisch te verklaren, blijft er minder onverklaarde variantie over.
In een variantieanalyse wordt het effect van een manipulatie getoetst met de F-toets, die de verhouding
tussen verklaarde en onverklaarde variantie weergeeft:
𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆 𝒗𝒆𝒓𝒌𝒍𝒂𝒂𝒓𝒅 𝒅𝒐𝒐𝒓 𝒆𝒙𝒑𝒆𝒓𝒊𝒎𝒆𝒏𝒕 𝒕𝒖𝒔𝒔𝒆𝒏−𝒈𝒓𝒐𝒆𝒑𝒆𝒏𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆
𝑭= (𝒕𝒐𝒕𝒂𝒍𝒆 𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆)−(𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆 𝒗𝒆𝒓𝒌𝒍𝒂𝒂𝒓𝒅 𝒅𝒐𝒐𝒓 𝒆𝒙𝒑𝒆𝒓𝒊𝒎𝒆𝒏𝒕)
=
𝒕𝒐𝒕𝒂𝒍𝒆 𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆−𝒕𝒖𝒔𝒔𝒆𝒏−𝒈𝒓𝒐𝒆𝒑𝒆𝒏𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆
Onderste deel wordt dikwijls binnen-groepen-variantie genoemd. Door covariaten op te nemen wordt
een deel van de binnen-groepenvariantie (ruis) verklaard, waardoor de F-waarde groter kan worden. Een
grotere F-waarde leidt tot een kleinere p-waarde, waardoor de kans groter wordt dat het effect van de
manipulatie statistisch significant is.
De F-waarde kan op twee manieren groter worden: (1) boven de deelstreep: door meer tussen-
groepenvariantie (grotere verschillen tussen groepen) of door (2) onder de deelstreep: minder totale te
verklaren variantie in de afhankelijke variabele. Covariaten zorgen voor dat tweede effect, omdat zij een
deel van de variantie in de afhankelijke variabele verklaren.
Wanneer een covariaat wordt toegevoegd, verandert de formule van de F-waarde ongeveer naar:
𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆 𝒗𝒆𝒓𝒌𝒍𝒂𝒂𝒓𝒅 𝒅𝒐𝒐𝒓 𝒆𝒙𝒑𝒆𝒓𝒊𝒎𝒆𝒏𝒕
𝑭𝒄 = (𝒕𝒐𝒕𝒂𝒍𝒆 𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆)−(𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆 𝒗𝒆𝒓𝒌𝒍𝒂𝒂𝒓𝒅 𝒅𝒐𝒐𝒓 𝒄𝒐𝒗𝒂𝒓𝒊𝒂𝒂𝒕)− (𝒗𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆 𝒗𝒆𝒓𝒌𝒍𝒂𝒂𝒓𝒅 𝒅𝒐𝒐𝒓 𝒆𝒙𝒑𝒆𝒓𝒊𝒎𝒆𝒏𝒕)
Omdat de covariaat een deel van de variantie van Y verklaart, blijft er minder binnen-groepenvariantie
(ruis) over. Daardoor wordt Fc meestal groter dan F, wat leidt tot een kleinere p-waarde en dus een
grotere kans dat het effect statistisch significant wordt.
De figuur illustreert het effect van
een covariaat op de variantie in
Y.
Links: situatie zonder covariaat;
het experimentele effect wordt
berekend als de overlap tussen
de variantie van de
onafhankelijke variabele en Y
gedeeld door de niet-
overlappende variantie van Y.
Midden: een covariaat is
toegevoegd, die een deel van de
variantie in Y verklaart.
Rechts: de covariaat fungeert als signaalversterker; door de verklaarde variantie van de covariaat uit Y te
halen, blijft er minder onverklaarde variantie over, waardoor het relatieve effect van de onafhankelijke
variabele groter wordt.
Samengevat zijn er twee manieren om ruis in een experiment te beheersen:
1. Experimentele controle: door juiste randomisatie wordt ruis zo veel mogelijk beperkt.
2. Statistische controle: door covariaten toe te voegen wordt resterende ruis in de afhankelijke
variabele verminderd.
Hoewel experimentele controle de voorkeur heeft, zijn covariaten vooral nuttig wanneer randomisatie
niet volledig mogelijk is, zoals bij quasi-experimenten.
2