Deels herhaling van vorig jaar en deels nieuwe dingen.
Lineaire relaties
Het gaat hier om 2 interval variabelen (geen categorische!)
- Scores voor taal en rekenen
- Lengte en leeftijd
Is er een relatie en zo ja, hoe sterk is deze?
Door een spreidingsdiagram kan je zien of er een (lineaire) relatie is en hoe sterk deze is.
Hier zie je dat er een negatief lineair verband
is. Er is een dalende redelijk rechte lijn te zien.
Een rechte lijn wijst naar lineairiteit en een
dalende lijn (y hoog = x laag en x hoog = y
laag) wijst op een negatief verband.
Zoals we bij wiskunde op de middelbare
hebben geleerd, is de functie van een lineaire
lijn y = a + bx
- Bx = helling (slope) keer de waarde van
de x-variabele
- A = intercept (startpunt)
De formule y = a + bx is dan ook de algemene regressievergelijking
9.2 + 9.3
Regressie lijn
Om de regressielijn te vinden moeten we de kleinste
kwadratensom van de residuen vinden. Dit doet
software voor je. De theorie hierachter is dat je
telkens een nieuwe lineaire lijn trekt door de punten
heen. Per lijn bereken je de residuen (afstand punt tot
de lijn), deze kwadrateer je en tel je op. Je kiest dan
de lijn waarbij deze kwadratensom het kleinst is.
Enkelvoudige regressievergelijking
Y = B0 + B1 x onafhankelijke variabele + E
- B0 = intercept (startpunt)
- B1 = slope (helling
- E = error (verschil in echte waarde van y en geschatte waarde van y)
Als je de regressielijn moet schatten, valt E weg -> y = b0 + b1 x onafhankelijke variabele
,Voorbeeld
Je wil de waarde van BDI (y) voorspellen op basis van coping (x)
Het intercept = 54,3 en de helling = -5,2, coping is de x variabele
BDI = 54,3 + -5,2 x coping
BDI = 54,3 – 5,2 x coping
Enkelvoudige regressieanalyse
Kan y voorspelt worden door x?
Dit doe je door significantie toets voor het regressie coëfficiënt (slope, B1)
Je doorloopt het vijf stappen plan:
1. Assumpties checken
Onafhankelijke residuen, normaal verdeelde residuen, lineaire relatie tussen x en y en
homoscedasticiteit
2. Hypotheses opstellen
Je stel wel een hypothese op voor het intercept, en test deze, maar de uitkomst maakt eigenlijk
niet zo veel uit. Het draagt meer om de slope
H0: B1 = 0 en H0: B0 = 0
Ha: B1 ≠ 0 en H0: B0 ≠ 0
3. Toets-statistiek uitrekenen
Doet SPSS
4. P-waarde berekenen
Doet SPSS
5. Conclusie trekken
Als je een kleine p waarde hebt, is x waarschijnlijk een voorspeller van y. De grens is
onduidelijk. Als in de opdracht een significantie niveau van 0,05 staat dan is x een goede
voorspeller als p < 0,05. Anders bij de interpretatie zelf zeggen ‘ik neem aan dat het
significantie niveau (bijvoorbeeld) 0,05 is’ en dan kijk of p groter of kleiner is
9.4
Pearson correlatie
De correlatie wordt aangeduid met ‘r’ in de steekproef
De correlatie wordt aangeduid met ‘p’ in de populatie
- De H0 wordt dan ook p = 0
, - Je H0 doet altijd uitspraak over de populatie! Dus p ipv r
De correlatie meet de sterkte en richting van de lineaire samenhang tussen 2 interval
variabelen
Correlatie is gestandaardiseerd -> het is onafhankelijk van de schaal waarop de variabelen
zijn. Is de schaal van de variabele a van 0 – 10 en de schaal van de variabele b van 0 – 200,
dan blijft de correlatie alsnog tussen -1 en 1, en niet hoger. Hierdoor is het vergelijken en
interpreteren makkelijker.
- R < 1 = negatieve relatie
- R > 1 = positieve relatie
- R = 0 = geen relatie
R kwadraat
Om de sterkte van de lineaire relatie te berekenen, doen
we de gevonden correlatie in het kwadraat. Dit geeft aan
hoeveel van de variantie in de y variabele verklaard kan
worden door de x variabele
Een hoge r^2 geeft aan dat veel variantie in de y
verklaard kan worden door x. Omdat r^2 berekend
wordt door de correlatie in het kwadraat te doen, moet
de correlatie hoog zijn om een hoge r^2 te krijgen. Bij een hoge correlatie zijn er kleine
residuen, kleine afstand tussen de puntjes en de regressielijn.
Een lage r^2 geeft aan dat er weinig van de
variantie in y verklaard kan worden door x. De
r^2 is volledig afhankelijk van de correlatie (r),
waardoor een lage r^2 ook een lage correlatie
betekent. Bij een lage correlatie is er veel
spreiding, en dus grote residuen
Voorbeeld met onderzoeksvragen
1. Is er een lineaire relatie tussen x en y ->
correlatie
De nulhypothese stel dat de correlatie in de populatie (!) gelijk is aan 0
H0: p = 0
Niet r = 0 want r staat voor correlatie in de
steekproef en p staat voor de correlatie in
de populatie
In de tabel zien we een correlatie van -
0,880 tussen BDI en Coping. Hieronder
, staat ‘significantie’ en dit is de p-waarde. Deze is 0,000. Deze is kleiner dan 0,01 en er is dus
wel een significante negatieve relatie tussen BDI en Coping
2. Hoe sterk is de lineaire relatie tussen x en y -> correlatie
We hebben net gezien dat de correlatie tussen BDI en Coping -0,880 is. Om de sterkte van de
relatie te meten doen we de correlatie in het kwadraat (r^2). -0,88 x -0,88 = 0,7744
Dit betekent dat 77,44% van de variantie in BDI verklaard wordt door Coping
3. Kan y voorspelt worden door x -> regressie analyse
Je stelt de regressie
vergelijking op. Onder de ‘B’
in de tabel staan de getallen die
je in de regressievergelijking
nodig hebt. Het getal onder ‘B’
en naast ‘constant’ is je
intercept, in dit geval 54,297. Onder het getal ‘B’ en naar je x variabele, in dit geval dus naast
‘Coping’, staat je slope, in dit geval -5,2.
Hierna bereken je t- en p-waarden. Dit doet SPSS in dit geval. We zagen dat de bovenste
(constant) het intercept (B0)
is, en de onderste (coping)
de slope (B1). De t- en p-
waarden hierachter behoren
dus ook bij het intercept
(30,33 en 0,000) en bij de
slope (-16,74 en 0,000). We zien hier dus dat zowel het intercept als de slope significant zijn
( p < 0,001). Door een significante slope zien we dat de x-variabele (coping) waarschijnlijk
een voorspeller is van de y-variabele (BDI)
Interpretatie slope en intercept
Het intercept is hetzelfde als je beginpunt bij
wiskunde. Dit is waar de lijn dat y-as snijdt, bij x
= 0. Waar de lijn is bij de plek waar de x-variabele
(coping) 0 is, is het intercept. De slope is hetzelfde
als de helling bij wiskunde. Hoeveel y omhoog
gaat als x 1 omhoog gaat. In dit geval hoeveel
BDI omhoog gaat als Coping 1 omhoog gaat.
In dit voorbeeld zien we dat het intercept 54,3 is.
Bij een stap hoger van X, daalt BDI met 5,2
(slope).
De regressievergelijking: BDI = 54,3 – 5,2 x
Coping. Als persoon i een score heeft van 5 op coping, heeft hij een score van 54,3 – 5,2 x 5 =
12,7. Een score van 12,7 op BDI