Parametrische toetsen, maken aannames over de verdeling van je variabele. Deze aanname is echter
niet altijd correct en in dat geval zijn er paar andere opties:
- Data transformatie, als je een bepaalde transformatie uitvoert op je data kan het de
normaliteit en/of homogeniteit van de verdeling verbeterd wordt.
- Niet-parametrische toets, is een toets die minder strenge aannames maakt over de
verdelingen. Dit gaat wel ten koste van de kracht van je toets. Dat wil zeggen dat je minder
snel in staat zult zijn om je nulhypothese te verwerpen.
- Computer intensieve toetsen, de toetsen die tot nu behandeld zijn, zijn allemaal rond 1930
bedacht toen er nog geen krachtige rekenmachines waren. Tegenwoordig kunnen we echter
al moeilijke berekeningen oplossen met onze telefoon. Voorbeelden van computer
intensieve testen zijn bootstrapping en permutatie testen. Deze toetsen maken ook
aannames, maar deze zijn meestal niet zo streng en relatief robuust.
- Generalized linear models, zijn niet hetzelfde als linear models (lm())! Generalized linear
models zijn veel breder toepasbaar, maar dit komt pas in week 9 v/d cursus aan bod.
Data transformatie, transformeert elke meting door er dezelfde wiskundige formule op toe te
passen. Je doel hierbij is om een transformatie te vinden die ervoor zorgt dat je data beter aansluit
op de assumpties van een toets die je uit wil voeren. Meestal wil je de normaliteit en/of
homogeniteit (variantie) verbeteren van je groepen.
Voorbeeld data transformatie, rechts zie je data weergegeven
die right-skewed is. Dit zie je meteen als je boxplots bekijkt. Zo
ligt de mediaan niet in het midden van de box en heb je aan
bovenkant outliers. Ook is bij alle groepen de bovenste
staart/whisker een stuk langer. Je data is dus niet normaal
verdeeld, waardoor je geen ANOVA uit kan voeren. Toch lijkt er
een verband te zijn, want het gemiddelde wordt steeds hoger.
Als het gemiddelde van een variatie hoger is, heb je ook vaak
een hogere variatie. Dit is ook een probleem bij ANOVA,
aangezien je varianties daarbij hetzelfde moeten zijn. Je kan
naar de diagnostische plotjes kijken om de aannames nog beter
te toetsen. Deze plotjes bevestigen hetgeen wat al gezegd is: de
data is scheef en niet homogeen. In dit geval ligt de oplossing in
een log transformatie. In R kan je heel gemakkelijk
transformaties uitvoeren, aangezien R de berekening op alle
getallen in een vector toe zal passen:
Rechtsonder is te zien hoe de getransformeerde data eruitziet.
Je ziet dat de verdeling niet meer scheef is en dat de standaard
deviaties veel dichter bij elkaar liggen. Verder bevestigt de
Levene’s test dat je data homogeen is. Je kan ook nog de
diagnostische plotjes bekijken ná de transformatie (↓) en deze
geven ook aan dat
je data mooi
normaal verdeeld
en homogeen is. Je
mag nu dus wel
ANOVA uitvoeren.
Je ziet op de
, volgende pagina de ANOVA tabel weergegeven. De P-
waarde is niet kleiner dan 0.05 en je hoeft dus geen
paarsgewijze vergelijkingen uit te voeren (summary()).
Conclusie bij datatransformatie, een nadeel aan het
gebruiken van datatransformaties is dat je nulhypothese
hierdoor verandert. Zo zou je nulhypothese voor ANOVA als volgt zijn:
𝐻0 : ℎ𝑒𝑡 𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑣𝑎𝑛 𝑑𝑒 𝑔𝑒𝑡𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑒𝑟𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙𝑒 𝑖𝑠 𝑣𝑜𝑜𝑟 𝑎𝑙𝑙𝑒 𝑔𝑟𝑜𝑒𝑝𝑒𝑛 𝑔𝑒𝑙𝑖𝑗𝑘
bijvoorbeeld 𝐻0 : 𝑚𝑒𝑎𝑛(ln(𝑋1 )) = 𝑚𝑒𝑎𝑛(ln(𝑋2 )) =..
Dit is niet dezelfde nulhypothese die gebruikt voor een ANOVA zonder transformaties waarbij je
simpelweg zegt dat alle gemiddeldes hetzelfde zijn. Dat komt omdat 𝑚𝑒𝑎𝑛(ln(𝑌)) ≠ ln(𝑚𝑒𝑎𝑛(𝑌)).
In het algemeen is het gemiddelde van een bepaalde functie van een variabele niet hetzelfde als de
functie van het gemiddelde van deze variabele. Dat zie je het volgende voorbeeld:
- De variabele is als volgt: 𝑋 = 1,2,3
- Het gemiddelde van deze variabele is: 𝑋̅ = 2
12 +22 +32 14
- Het gemiddelde van de getransformeerde data is: ̅̅̅̅𝑋2 = =
3 3
- Het uitvoeren van de transformatie op het gemiddelde geeft: 𝑋̅ 2 = 22 = 4
14
- 3
≠ 4 dus het klopt
Je toetst dus een andere hypothese, maar in veel gevallen is dat niet zo belangrijk voor de
biologische conclusie. Als er iets verandert is, heb je al laten zien dat er een effect is. Ben er echter
van bewust dat het een verschil kan maken!
Veel gebruikte transformaties, hieronder zie je een paar transformaties die vaak gebruikt worden:
- Log transformatie (𝒀′ = 𝐥𝐧(𝒀)), als je waardes hebt die negatief zijn of gelijk zijn 0 moet je
nog een extra aanpassing maken, want de log van een negatief getal of 0 werkt niet. In dat
geval gebruik je 𝑌 ′ = ln(𝑌 + 𝑐) waarbij c constant is.
- Arcsine transformatie (𝒑′ = 𝒂𝒓𝒄𝒔𝒊𝒏(√𝒑)), als je proporties wil toetsen, maar je aannames
niet voldaan worden, kan je dat vaak oplossen door de arcsine van de wortel te nemen.
- Exponentiële transformatie (𝒀′ = 𝒆𝒙𝒑(𝒀)), dit is precies het omgekeerde van de log
transformatie. Vaak is een exponentiële transformatie nuttig als je dat left-skewed is.
- Er zijn nog veel meer mogelijke transformatie, zie daarvoor W&S.
Concave VS convexe functies, afhankelijk van je data moet je hem transformeren
met een concave of convexe functie:
- Concave functie, als je een concave functie gebruikt om te transformeren,
zal je voor kleine x’en een grote verandering krijgen in y. Bij grote x’en
verandert y juist minder snel. Rechts zie je een concave functie
weergegeven en voorbeelden van functies die op deze manier verlopen
zijn log en wortel functies. Deze gebruik je op data die rechtsscheef is. Je
ziet rechts aangegeven hoe right-skewed data verandert als je er een
concave functie op loslaat.
- Convexe functie, als je een convexe functie gebruikt om te
transformeren worden juist grote waarden van x uit elkaar
getrokken en kleine waarden niet. Voorbeelden van convexe
functies zijn exponentiële en kwadraat functies. Deze pas je toe op data die
linksscheef is.
Je moet dus eerst naar de verdeling van je data kijken om te begrijpen wat
voor transformatie je toe moet passen.
Voor- en nadelen transformeren, het grote voordeel is dat je door een
transformatie een normale parametrische toets uit kan voeren met veel
kracht. Het nadeel is dat je nulhypothese hierbij ook getransformeerd wordt en
dat betekent dat je dus een andere hypothese aan het toetsen bent.