Multivariate data-analyse:
Week 1-4: In hoeverre kan de afhankelijke (Y) variabele voorspeld worden door
predictoren (onafhankelijke variabelen) X1 en/of X2.
Y = Afhankelijke variabelen
X1 and X2 = Onafhankelijke variabelen
Wat bepaalt welke techniek, dit ligt aan het meetniveau:
3 meetniveau’s:
- NOM: Nominaal, alleen categorieën.
o No therapy, psychodynamic and exposure.
- INT: Interval, if interval met betekenis.
o Weight, hight, IQ
- BIN: Binair, 2 categorieën (NOM or INT)
o Pass/fail, male/female
Methodes:
X1 Xk Y Techniek Afkorting
INT INT Multiple regression analysis MRA
NOM INT Analysis of variance ANOVA
NOM + INT INT Analysis of covariance ANCOVA
INT BIN Logistic regression analysis LRA
NOM + NOM INT MANOVA
Meerdere metingen Repeated Measures Anova RMA
ANOVA met een mediator Mediation Analysis
Week 1: Multiple Regression Analysis (MRA)
MRA: In hoeverre kan de afhankelijke (Y) variabele voorspeld worden door predictoren
(onafhankelijke variabelen) X1 en/of X2.
- Voorbeeld: can depression (Y) be predicted by life events (X1) and/or coping
(X2)?
o Variables:
X1: number of life events: 0, 1, 2, 3 etc.
Voorbeeld: disease, financial problems, divorce
Meetniveau: INT
X2: coping index: 1 = no coping, 10 = good coping
Meetniveau: INT
Y: BDI depression score: 0-9 = minimal, 10-18 = moderate etc.
Meetniveau: INT
- Staat het woordje ‘predict’ in de vraag? → dan moet je bijna altijd een MRA
uitvoeren!
Regressie model: Afhankelijke variabele Y is een lineaire functie van de predictoren X.
- Enkelvoudige regressie (1 predictor): Yi = b 0* + b 1*X1i + e i
- Meervoudige regressie (multiple predictors): Yi = b 0* + b 1*X1i + b 2*X2i + … +
b k *Xki + e i
Hierbij geldt: * = Populatie parameters.
- X1i, X2i, Xki etc. = Waarden onafhankelijke variabelen.
- Error/Residu (e i): verschil tussen geobserveerde waarde ( y i ) en voorspelde
waarde ( ^y i). -> afstand punten en lijn.
o Formule: e i = y i - ^y i
- b 0* = Populatie regressie constant
- b 1*, b 2*, b k*= (populatie) regressive coefficient (hoe sterk is het verband tussen
de variabelen) (need to be estimated from the data), in a linear model → use least
squares estimation:
,Kleinste kwadraten principe/ Least squares estimation: Linear
model met 1 predictor.
2
- Het doel is om de som van alle gekwadrateerde errors ( e )
i
zo klein mogelijk te houden ->
punten zo dicht mogelijk bij de
lijn.
o Formule:
- ^y i = voorspelde waarde op basis van het regressiemodel.
o Enkelvoudig:
o Meervoudig:
VOORBEELDSOM: Kleinste kwadraten principe
Gebruik van het regressie model:
- Describes the relationship between depression (Y) and life events (X1) and coping
(X2) in the population.
- Can be used to predict the depression score of individuals that are not in the
original study / sample.
example: If a new dutch adult had 3 life events and a coping index of 8:
- BDI = 22.874 + 5.293 (3) – 3.085 (8) = 14.073
o Voorspelt niveau van depressive is 14.073 = mild.
,In SPSS:
Hypothesen:
H 0: b 1* = b 2* =…. b k * = 0 (of: H 0: R2 = 0)
H ❑: ten minste één b J * 0 (of: H ❑: R2 > 0)
7386.506/2
F= = 28.49
7389.5/57
- Interpretatie: De nulhypothese kan verworpen worden. F(2, 57) = 28.49, p
< .001
With the F-value, you get a p-value. when p < 0.001, the null hypothesis can be rejected.
the test shows that:
there is at least one non-zero regression coefficient
there is a relationship between depression and life events and/or coping
depression can be predicted from life events and/or coping
Dit gaan we toetsen met de ANOVA F-toets:
ANOVA F-toets: Bekijkt de verhouding tussen de verklaarde en de onverklaarde
variantie.
Formule ANOVA F-toets voor Regressie:
- MS effect = SS effect / df effect
De vorm van de verdeling wordt bepaald door de vrijheidsgraden:
- Deze F-toets heeft 2 soorten vrijheidsgraden: Die van de variantie van de error en
die van de variantie van het model: df hele model = N - 1
o df Y^ = K -1
o df e = N - IJ
(k = categorieën van de ene variabele)
(j = categorieën van de andere variabele)
o df van het interactie effect = (k - 1) . (j - 1)
k = rows, j = column
, Sum of squares = =
- F-value = MS regression / MS error
Formule SSmodel = ( ^y - y (gemiddelde) ) 2
In het regressiemodel is de variantie het
‘gemiddelde’ van de afwijkingen (Mean
Square)
Mean square
Total ( MS Y ) =
totale variantie van Y
Formule ( MS Y ):
Mean square model ( MS Y^ ) = FIT, Model Variance
Formule MS Y^ :
Mean square error ( MS e): RESIDUAL, Error Variance (hoge slechte fit, laag goede fit)
Formule MS e:
Hoe goed zijn de predictoren? R square = The coefficient of determination. hoeveel
variantie wordt verklaard door meerdere variabelen samen.
calculating the
R is Pearson correlation between Y and a
combi of X1 and X2
R has a value between 0 and 1
R2 reflects how much variance of Y is explained by X1 and X2
= VAF (variance accounted for)
R2 reflects how good the linear model described the observed data.
R square formula: VAF = R2
- R = multiple correlatiecoëfficiënt >
correlatie tussen y en ^y
- Example: R square = 0.500 → life events and coping explain 50% of depression.
o SSmodel = Residual
VOORBEELDSPSS: ANOVA en VAF
Week 1-4: In hoeverre kan de afhankelijke (Y) variabele voorspeld worden door
predictoren (onafhankelijke variabelen) X1 en/of X2.
Y = Afhankelijke variabelen
X1 and X2 = Onafhankelijke variabelen
Wat bepaalt welke techniek, dit ligt aan het meetniveau:
3 meetniveau’s:
- NOM: Nominaal, alleen categorieën.
o No therapy, psychodynamic and exposure.
- INT: Interval, if interval met betekenis.
o Weight, hight, IQ
- BIN: Binair, 2 categorieën (NOM or INT)
o Pass/fail, male/female
Methodes:
X1 Xk Y Techniek Afkorting
INT INT Multiple regression analysis MRA
NOM INT Analysis of variance ANOVA
NOM + INT INT Analysis of covariance ANCOVA
INT BIN Logistic regression analysis LRA
NOM + NOM INT MANOVA
Meerdere metingen Repeated Measures Anova RMA
ANOVA met een mediator Mediation Analysis
Week 1: Multiple Regression Analysis (MRA)
MRA: In hoeverre kan de afhankelijke (Y) variabele voorspeld worden door predictoren
(onafhankelijke variabelen) X1 en/of X2.
- Voorbeeld: can depression (Y) be predicted by life events (X1) and/or coping
(X2)?
o Variables:
X1: number of life events: 0, 1, 2, 3 etc.
Voorbeeld: disease, financial problems, divorce
Meetniveau: INT
X2: coping index: 1 = no coping, 10 = good coping
Meetniveau: INT
Y: BDI depression score: 0-9 = minimal, 10-18 = moderate etc.
Meetniveau: INT
- Staat het woordje ‘predict’ in de vraag? → dan moet je bijna altijd een MRA
uitvoeren!
Regressie model: Afhankelijke variabele Y is een lineaire functie van de predictoren X.
- Enkelvoudige regressie (1 predictor): Yi = b 0* + b 1*X1i + e i
- Meervoudige regressie (multiple predictors): Yi = b 0* + b 1*X1i + b 2*X2i + … +
b k *Xki + e i
Hierbij geldt: * = Populatie parameters.
- X1i, X2i, Xki etc. = Waarden onafhankelijke variabelen.
- Error/Residu (e i): verschil tussen geobserveerde waarde ( y i ) en voorspelde
waarde ( ^y i). -> afstand punten en lijn.
o Formule: e i = y i - ^y i
- b 0* = Populatie regressie constant
- b 1*, b 2*, b k*= (populatie) regressive coefficient (hoe sterk is het verband tussen
de variabelen) (need to be estimated from the data), in a linear model → use least
squares estimation:
,Kleinste kwadraten principe/ Least squares estimation: Linear
model met 1 predictor.
2
- Het doel is om de som van alle gekwadrateerde errors ( e )
i
zo klein mogelijk te houden ->
punten zo dicht mogelijk bij de
lijn.
o Formule:
- ^y i = voorspelde waarde op basis van het regressiemodel.
o Enkelvoudig:
o Meervoudig:
VOORBEELDSOM: Kleinste kwadraten principe
Gebruik van het regressie model:
- Describes the relationship between depression (Y) and life events (X1) and coping
(X2) in the population.
- Can be used to predict the depression score of individuals that are not in the
original study / sample.
example: If a new dutch adult had 3 life events and a coping index of 8:
- BDI = 22.874 + 5.293 (3) – 3.085 (8) = 14.073
o Voorspelt niveau van depressive is 14.073 = mild.
,In SPSS:
Hypothesen:
H 0: b 1* = b 2* =…. b k * = 0 (of: H 0: R2 = 0)
H ❑: ten minste één b J * 0 (of: H ❑: R2 > 0)
7386.506/2
F= = 28.49
7389.5/57
- Interpretatie: De nulhypothese kan verworpen worden. F(2, 57) = 28.49, p
< .001
With the F-value, you get a p-value. when p < 0.001, the null hypothesis can be rejected.
the test shows that:
there is at least one non-zero regression coefficient
there is a relationship between depression and life events and/or coping
depression can be predicted from life events and/or coping
Dit gaan we toetsen met de ANOVA F-toets:
ANOVA F-toets: Bekijkt de verhouding tussen de verklaarde en de onverklaarde
variantie.
Formule ANOVA F-toets voor Regressie:
- MS effect = SS effect / df effect
De vorm van de verdeling wordt bepaald door de vrijheidsgraden:
- Deze F-toets heeft 2 soorten vrijheidsgraden: Die van de variantie van de error en
die van de variantie van het model: df hele model = N - 1
o df Y^ = K -1
o df e = N - IJ
(k = categorieën van de ene variabele)
(j = categorieën van de andere variabele)
o df van het interactie effect = (k - 1) . (j - 1)
k = rows, j = column
, Sum of squares = =
- F-value = MS regression / MS error
Formule SSmodel = ( ^y - y (gemiddelde) ) 2
In het regressiemodel is de variantie het
‘gemiddelde’ van de afwijkingen (Mean
Square)
Mean square
Total ( MS Y ) =
totale variantie van Y
Formule ( MS Y ):
Mean square model ( MS Y^ ) = FIT, Model Variance
Formule MS Y^ :
Mean square error ( MS e): RESIDUAL, Error Variance (hoge slechte fit, laag goede fit)
Formule MS e:
Hoe goed zijn de predictoren? R square = The coefficient of determination. hoeveel
variantie wordt verklaard door meerdere variabelen samen.
calculating the
R is Pearson correlation between Y and a
combi of X1 and X2
R has a value between 0 and 1
R2 reflects how much variance of Y is explained by X1 and X2
= VAF (variance accounted for)
R2 reflects how good the linear model described the observed data.
R square formula: VAF = R2
- R = multiple correlatiecoëfficiënt >
correlatie tussen y en ^y
- Example: R square = 0.500 → life events and coping explain 50% of depression.
o SSmodel = Residual
VOORBEELDSPSS: ANOVA en VAF