Pearson correlatie is voor continue variabelen.
Correlatie & causatie, als je ziet dat twee zaken met elkaar samenhangen (correleren) zijn mensen
vaak geneigd om te concluderen dat de ene variabele de oorzaak is van de andere variabele. Dit
oorzakelijk verband kan weleens verkeerd opgevat worden en de volgende fout opleveren:
- Omdraaien van de richting van causaliteit: “Hoe harde de wieken van een molen draaien,
hoe sterker de wind is. Dus: wind wordt veroorzaakt door het draaien van de wieken.”
Het kan ook zo zijn dat de twee variabelen een gemeenschappelijk oorzaak hebben en correlatie
hoeft dus niet te duiden op causatie tussen de twee variabelen waar je naar kijkt:
- Gemeenschappelijke oorzaak (confouding variables): “In de periode waarin er meer ijs
wordt verkocht overlijden er meer mensen aan verdrinking. Dus: ijsjes veroorzaken
verdrinking.” Het klopt hier inderdaad dat er meer mensen aan verdrinking overlijden
als er veel ijs gegeten wordt, maar de oorzaak van deze verdrinking is niet ijs. De
gemeenschappelijke oorzaak is de temperatuur, waardoor er meer ijs gegeten wordt en
meer aan waterrecreatie gedaan wordt.
Bovenstaande voorbeelden lijken erg dom, maar ze geven goed de essentie van de fouten aan. Als
we nu kijken naar de volgende observatie: “In een grote database met expressiedata geldt: als
transcriptiefactor A een hoge expressie heeft, dan is de expressie van eiwit B gemiddeld ook hoog.”
Hieruit kan je concluderen dat: “Transcriptiefactor A het gen van B reguleert.” Maar dat hoeft
helemaal niet zo te zijn. Je kan hier alleen concluderen dat er een correlatie is. Zie interleaf 8 voor
meer informatie hierover.
Lineaire regressie, we kunnen nu voorspellen of er een lineair
verband is, maar vaak wil je ook kunnen voorspellen wat de
waarde van Y is als je waarde van X al weet (als er een lineair
verband is). We zagen eerder dat het leek of de bloeddruk
toenam met het gewicht en de vraag is nu of je iemands
bloeddruk kan voorspellen als je zijn gewicht weet. Rechts zie je
de data van dit onderzoek nog eens weergegeven en om te
voorspellen wat iemand zijn bloeddruk is op basis van zijn
gewicht, trek je een lijn door al je meetpunten heen. Dat is de regressielijn en die is rechts
weergegeven. Deze lijn beschrijft het verband tussen X en Y op de best mogelijke manier.
Regressielijn, de formule voor een rechte lijn is: 𝑦 = 𝑎 + 𝑏𝑥. Op de middelbare school je heb je
echter 𝑦 = 𝑎𝑥 + 𝑏 geleerd en je moet dus goed onthouden dat parameters 𝑎 en 𝑏 nu dus anders
zijn. In het geval van 𝑦 = 𝑎 + 𝑏𝑥 geeft 𝑎 het snijpunt met de Y-as aan en 𝑏 is de richtingscoëfficiënt.
De richtingscoëfficiënt geeft aan hoeveel je omhoog gaat als je één stapje opzij zet. De precieze
definitie van de regressielijn is: de rechte lijn waarvoor de kwadratensom het kleinst is:
𝑛
2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 = ∑(𝑌𝑖 − (𝑎 + 𝑏𝑋𝑖 ))
𝑖=1
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 wordt ook wel 𝑆𝑆𝑒𝑟𝑟𝑜𝑟 genoemd en de regressielijn
is dus de lijn waarbij alle afstanden van de punten tot de lijn
opgeteld het kleinst zijn. In de formule zie je dit ook
weergegeven doordat je van elk punt de Y-waarde neemt en
daar de lijn vanaf trekt, waardoor je de afstand van het
betreffende punt tot de lijn krijgt. Deze afstand kwadrateer je
dan en tel je op bij de afstanden van de andere punten. Je kan
nu aan de hand van je berekende regressielijn voorspellingen gaan doen. Zo zie je de afbeelding
aangegeven dat een persoon van 60 kg waarschijnlijk een bloeddruk heeft van 70,27 mm/Hg.
Parameters 𝒂 en 𝒃, kun je uitrekenen aan de hand van je datapunten. Voor 𝑏 geldt:
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)
𝑏=
∑(𝑋𝑖 − 𝑋̅)2
, 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒(𝑋, 𝑌)
=
𝑠𝑋2
𝑠𝑌
= 𝑟( )
𝑠𝑋
Je ziet hier dat 𝑏 en 𝑟 met elkaar te maken hebben, maar dat ze niet hetzelfde zijn. Je ziet dan ook
dat de teller hetzelfde is als die van 𝑟, maar in de noemer staat iets anders. De helling van een
regressielijn is dus niet hetzelfde als de correlatiecoëfficiënt. Hierbij is 𝑟 een getal tussen -1 en 1,
𝑠 𝑠
waardoor 𝑏 tussen − ( 𝑌 ) en ( 𝑌 ) ligt. Verder loopt de regressielijn altijd door het punt (𝑋̅, 𝑌̅),
𝑠𝑋 𝑠𝑋
waardoor je 𝑎 uit kan rekenen door alle bekenden in te vullen in 𝑌̅ = 𝑎 + 𝑏𝑋̅.
Onzekerheid, we kunnen nu de regressielijn opstellen en aan de hand daarvan voorspellingen doen,
maar we willen ook aan kunnen geven hoe (on)zeker die voorspellingen zijn. Ook willen we toetsen
uit kunnen voeren met onze voorspellingen. Het blijkt dat je dit kan doen door een beetje op
dezelfde manier als bij 1-weg ANOVA de variantie op delen.
Opsplitsen variantie, de totale variantie (totale kwadratensom)
van Y kan je opsplitsen in twee delen: 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 +
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 . Rechts zie je hier een samenvattend figuur van. De
totale kwadratensom is de afstand van ieder punt tot het
gemiddelde van Y (𝑌̅) en dat doe je dus voor ieder punt. Deze
lengtes kwadrateer je vervolgens en tel je bij elkaar op. Dat blijkt
hetzelfde te zijn als de standaarddeviatie van Y vermenigvuldigt
met (𝑛 − 1). Dit kan je dan weer opsplitsen in twee delen:
- 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 , hierbij neem je de afstand van elk punt op de regressielijn tot het gemiddelde. Je
kijkt dus waar de punten op de regressielijn gerepresenteerd worden en neemt de afstand
van dat punt op de regressielijn tot 𝑌̅. Deze afstanden kwadrateer je en tel je bij elkaar op.
- 𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 , hier neem je van ieder punt zijn afstand tot de regressielijn. Deze afstanden
kwadrateer je en tel je bij elkaar op.
De variatie in bloeddruk (staat op de Y-as) is er dus door twee redenen: er is variatie doordat mensen
met een verschillend gewicht een verschillende bloeddruk hebben en een deel van de variatie kan
dus verklaard worden door verschillen in gewicht. Het is echter ook zo dat mensen met eenzelfde
gewicht een verschillende bloeddruk kunnen hebben. Dat zie je in het rechter gedeelte van de
afbeelding en een ander deel van de variantie kan dus verklaard worden door zaken anders dan het
gewicht. Het eerste deel (𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 ) kan verklaard worden en het tweede deel (𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 ) kan niet
verklaard worden.
𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒
Determinatiecoëfficiënt, door de determinatiecoëfficiënt uit te rekenen: 𝑅 2 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙
kunnen we
zeggen welk gedeelte van de variatie in Y te verklaren is met de relatie tot X. In gedachte van het
voorbeeld kan je daarmee dus zeggen welk gedeelte van de variatie in bloeddruk te verklaren is met
de variatie in het gewicht. Het blijkt nu dat 𝑅 2 precies gelijk is aan 𝑟 2 . Dat is op zich wel logisch want
als 𝑟 = 1 moet het wel zo zijn dat alle variatie in bloeddruk bijvoorbeeld samenhangt met variatie in
gewicht.
Voorbeeld gewicht en bloeddruk, als we deze kennis toepassen op het voorbeeld krijgen we voor
𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 + 𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 dat 335,66 = 189,54 + 146,12. De determinatiecoëfficiënt die
189,54
hieruit volgt is 𝑅 2 = 335,66 = 0,5647 = (0,753)2 = 𝑟 2 . We kunnen dus de conclusie trekken dat 56%
van de variantie in bloeddruk verklaard kan worden door variatie in gewicht. Dat wil niet zeggen dat
gewicht de verklaring is! We moeten namelijk oppassen met causatie als we bezig zijn met correlatie.
Toetsen lineaire regressie, je kan je afvragen of er daadwerkelijk een lineair verband is, of dat de
gevonden helling van de regressielijn ook op toeval gebaseerd kan worden. Als we er vanuit gaan dat
𝛽 de ware helling is die bij het verband hoort. Dan is 𝑏 de schatting van 𝛽 op basis van de steekproef
en kunnen we de volgende hypothese toetsen 𝐻0 : 𝛽 = 0 en 𝐻𝐴 : 𝛽 ≠ 0. Nu willen we dus aan kunnen
tonen of er een significante relatie is of niet.