Correlationeel onderzoek
Spreidingsdiagram
Wat kun je zien in een spreidingsdiagram?
1) Het eerste waar je naar kijkt is of er überhaupt sprake is van samenhang, dus we gaan
kijken of we een patroon zien in de data. Er is hier sprake van positieve samenhang,
dat kunnen we duidelijk zien aan het patroon die de punten volgen.
2) Als tweede kijken we naar de vorm van de samenhang, het gaat vooral over of er een
vorm zit in de samenhang, bijvoorbeeld lineair (rechte lijn doorheen kunnen trekken).
We gaan nu alleen kijken naar lineaire samenhang, dus dat is belangrijk om te weten.
3) We kunnen ook een idee krijgen van de richting van de samenhang. We gaan kijken
of er sprake is van positieve of negatieve samenhang is. Positieve samenhang: hoe
hoger de score op de een, hoe hoger ook de score op de ander. Negatieve samenhang:
hoe hoger de score op de een, hoe lager de score op de ander.
4) We kunnen een inschatting maken van de sterkte van de samenhang. Hoe meer de
punten op een lijn liggen, hoe sterker de samenhang is. En, hoe meer de punten
verspreidt liggen, hoe zwakker de samenhang is.
5) Is er sprake van uitschieters (extreme scores) die niet passen bij de rest? Uitschieters
beïnvloeden de correlatie, het getal wordt erg vertekend. Daarom moet je je bewust
zijn van uitschieters.
Correlatiecoëfficiënt
Correlatie is de statistische term voor samenhang. De correlatiecoëfficiënt, verteld hoe sterk
de samenhang precies is (en ook de richting van de samenhang). Maat voor correlatie bepaald
door meetniveau (deze twee worden behandeld in de cursus):
- Twee variabelen van interval/ratio meetniveau: Pearson correlatie
- Twee variabelen van ordinaal meetniveau (of in ieder geval een variabele van ordinaal
meetniveau): Spearman (rang)correlatie
De keuze tussen deze twee bepalen we op basis van het meetniveau van de variabelen.
Ook kan de maat voor correlatie worden bepaald door de vorm. Maat voor correlatie bepaald
door vorm:
- Pearson correlatie: er moet sprake zijn van lineaire samenhang (en interval
meetniveau)
- Spearman correlatie: het kan met lineaire samenhang, bijvoorbeeld als je twee
variabelen hebt van ordinaal meetniveau, maar ook niet-lineaire samenhang (maar die
moet dan wel monotoon stijgend of dalend zijn). Dat betekent dat de samenhang
alleen maar omhoog gaat, of alleen maar naar beneden gaat. Dat betekent dat als je
een parabool ziet (eerst naar beneden, dan omhoog of andersom) je dan geen gebruik
kunt maken van de correlatie van Spearman.
Je gaat dus eerst kijken naar het meetniveau van de variabelen en daarna kijk je naar de vorm
van de samenhang.
Als we correlatie gebruiken in de populatie, dus een hele populatie van scores, dan gebruiken
we de Griekse letter Ro (P). In het algemeen als we iets beschrijven over een populatie, dan
maken we gebruik van Griekse letters. Als we iets beschrijven over een steekproef, dan
gebruiken we gewone Latijnse letters (daar wordt dus onderscheidt in gemaakt). Voor de
steekproef wordt de Latijnse letter R gebruikt.
, De correlatiecoëfficiënt ligt altijd tussen de -1 en +1
o R = -1: zeer sterke negatieve samenhang, dus dan als je een spreidingsdiagram hebt.
Liggen alle punten op een lijn, die naar beneden wijst. Dus bij -1 liggen altijd alle punten
op een lijn naar beneden. Hoe hoger de score op X, hoe lager de score op Y.
o R = 0: geen samenhang tussen de twee variabelen. Dat betekent dus, dat als je van -1 naar
0 gaat, de negatieve samenhang zwakker wordt.
o R = +1: zeer sterke positieve samenhang. Alle punten in het spreidingsdiagram liggen op
een lijn, maar dan een lijn die naar boven wijst. Hoe hoger X, hoe hoger Y.
Interpretatie correlatiecoëfficiënt: uitschieters.
Een uitschieter pas niet in het patroon van de andere. De invloed op de correlatiecoëfficiënt
kan enorm zijn. Hier moet je je dus van bewust zijn. Wat je zou kunnen doen om de invloed
van uitschieters te zien, is een berekening van de correlatiecoëfficiënt maken met en zonder
de uitschieters. Het verschil geeft de invloed van de uitschieters weer. Hierna een overweging
maken of je de uitschieters wel of niet meeneemt in de berekening. Je laat de uitschieters in
de analyse, tenzij je een goede reden hebt om ze erbuiten te laten.
Interpretatie correlatiecoëfficiënt: beperkt bereik
Er is nog een factor die van invloed is op de correlatiecoëfficiënt, namelijk beperkt bereik.
Je maakt niet gebruik van de hele meetschaal aan scores, maar van een beperkt deel. Dan is
het veel lastiger om samenhang te vinden tussen variabelen. Een beperkt bereik heeft invloed
op de interpretatie van de correlatiecoëfficiënt.
In de theorie-datacyclus zijn we nu bezig met de fase van data-analyse.
Is R=0.28 echt een positieve samenhang, of is er sprake van toeval? Hiervoor moeten de
stappen worden doorlopen van de Null Hypothesis Significance Testing (NHST). Er moet
dus een hypothese toets worden gedaan. We hebben dus een steekproef, en we willen een
conclusie doen over de populatie. Hiervoor gaan we nu een hypothesetoets doen. Er worden
verschillende stappen doorlopen:
1. Stap 1: Toetskeuze, hypotheses bepalen en significantieniveau kiezen
2. Stap 2: Assumpties controleren
3. Stap 3: Toetsingsgrootheid en P-waarde bepalen
4. Stap 4: Conclusie trekken over H0
5. Stap 5: Inhoudelijke conclusie en effectgrootte bepalen
Stap 1: Toetskeuze
We gaan kijken of we Pearson of Spearman gaan gebruiken. Hiervoor zal moeten worden
gekeken naar het meetniveau en of er sprake is van lineaire samenhang (vorm).
Hypotheses bepalen
Eerste stelling is de nulhypothese (H0): bij het vaststellen van de situatie beschrijf je dat er
geen samenhang en geen verschil is, waardoor alles zo blijft zoals het is.
De alternatieve hypothese stelt het tegenovergestelde (H2): er is wel verandering, wel
samenhang, wel verschil en wel effect.
Hypothesen doen uitspraak over een populatie, waardoor je altijd gebruik maakt van Griekse
letters. Bijv. H0: P(Ro) = 0.