VAARDIGHEDEN
SESSIE 1
COLLEGE 1: DATA SCREENING
Outliers zijn waarden die significant afwijken van andere waarnemingen. Ze kunnen de resultaten
beïnvloeden
Outlier detection:
- Gebruik histogrammen: Histogrammen (univariate) en scatterplots (bivariate)
- Outliers in Y-space (enkel afhankelijke variabelen): standardized residuals (z-score die we niet
hebben kunnen verklaren in ons model)
o Regel: moet tussen -3 en 3 zijn
- Outliers in X-space (enkel onafhankelijke variabelen): mahalanobis distance
- Outliers in XY-space (beide afhankelijke en onafhankelijke variabelen): cook’s distance
o Regel: cook’s distance < 1
Cook’s distance: algemene maat voor de invloed van een punt op de waarden van de
regressiecoëfficiënten
- Cook’s distance zou <1 moeten zijn
Mahalanobis distance: controleert op outliers op voorspellende variabelen (onafhankelijke variabele)
- N = 500, dan zou Mahalanobis <20-25 moeten zijn
- N = 100, dan zou Mahalanobis <15 moeten zijn
- N = 30, dan zou Mahalanobis <11 moeten zijn
Je kan eventueel kijken naar de onderstaande tabel voor hoe groot de Mahalanobis distance
maximaal mag zijn
1
,Histogram maken
1 Graphs
2 Histograms
3 Variable: voer je afhankelijke variabele in (of een andere variabele)
4 Ok
Kijken of je histogram normaal verdeeld is
Scatterplot (stap 4)
1 Graphs
2 Scatter/Dot
3 Simple scatter
4 y-as: afhankelijke variabele
5 x-as: onafhankelijke variabele
6 Ok
Een outlier is een waarde die erg afwijkt van de rest van de waardes
Voor lineairiteit
7 Dubbel klik output
8 Add fit line at total
9 Quadratic
10 Apply
Wanneer er een groot verschil zit tussen de lineaire lijn en de quadratic lijn, is er geen sprake van
lineariteit
Mahalanobis distance, cook’s distance en standardized residuals (stap 2)
1 Analyze
2 Regression
3 Lineair
4 Dependent: afhankelijke variabele invoeren
5 Independent(s): onafhankelijke variabele invoegen
6 Save
2
, 7 Residuals: standardized
8 Distances: Mahalanobis en Cook’s
9 Continue
10 Ok
Standardized residual: te zien in de output (regel: tussen -3 en 3)
Normaliteit (stap 3)
1 Analyze
2 Descriptive statistics
3 Q-Q plots
4 Variables: standardized residuals
5 Ok
Als een model normaal verdeeld is, lopen de punten op of dicht rond te lijn
Het controleren van de assumpties voor een regressieanalyse is essentieel om ervoor te zorgen dat
de resultaten van de analyse geldig en betrouwbaar zijn. Als de assumpties niet worden voldaan,
kunnen de resultaten vertekend of misleidend zijn. De belangrijkste aannames voor een lineaire
regressie staan in de volgende stappen.
Stappen assumpties checken:
1. Measurement level of the variables
2. Check for outliers
a. Standardized residuals met een waarde groter dan 3.29 (of 3) zijn een reden tot zorg
b. Als meer dan 1% van de sample cases een residual boven 2.58 heeft (of 2.5) is er
reden tot zorg
c. Als meer dan 5% van de sample cases een residual boven 1.96 heeft (of 2) is er reden
tot zorg
3. Normality assumption
a. Normaliteit hoeft niet per sé gecheckt te worden wanneer n > 30 per groep is
(moeten wel even grote groepen zijn)
4. Linerariteit
5. Homogeneity assumption
6. Multicollinearity
7. Check Quality of prediction
a. Kijken naar R2 of deze wel hoog genoeg is (R2 = 0,335 is al goed)
Snel kijken of er onmogelijk waardes zijn en of Mahalanobis en Cook’s te groot zijn
1 Analyze
2 Descriptive statistics
3 Descriptives
4 Variables: Alle variabelen invoeren waar je naar wil kijken, incl. Mahalanobis distance en
Cook’s distance
5 Options: minimum en maximum
6 Ok
Sample size
- Aantal subject voor een betrouwbaar model
3
, o 10-15 cases per voorspeller
- Aantal cases voor adequate power (.80)
o Green (1991):
50+8*aantal voorspellers voor de nullhypothese
104+aatal voorspellers voor specifieke hypotheses
o Hoe kleiner het verwachte effect (R2) en hoe meer voorspellers in het model, hoe
groter N moet zijn voor een betrouwbare voorspelling en adequate power (.80)
Homogeneity assumption checken (stap 5)
1 Analyse
2 Regression
3 Lineair
4 Variabelen invoegen
5 Save
6 Predicted values: Unstandardized
7 Residuals: standardized
8 Ok
9 Graphs
10 Scatter/Dot
11 Simple scatter
12 Y-axis: Standardized residuals
13 X-axis: unstandardized predicted values
14 Ok
Wanneer alle waardes random verdeeld zijn is er geen schending van homogeneity
Multicollinearity checken (bij >2 voorspellers, stap 6)
1 Analyze
2 Correlate
3 Bivariate
4 Variabelen invoegen
5 Ok
6 Regression
7 Lineair
8 Variabelen invoegen
9 Statistics
10 Multicollinearity diagnostics
11 Ok
12 In tabel “coefficients” rij met: collinearity statistics
Wanneer een correlatie hoger is dan 0.80 of 0.90 en Tolerance < 0.10/VIF > 10, is de assumptie van
multicollinearity geschonden
COLLEGE 2: DIAGNOSTICS IN REGRESSION
Hierarchical Regression: wordt gebruikt wanneer je de effecten van verschillende groepen van
variabelen op een afhankelijke variabele wilt onderzoeken, terwijl je de effecten van eerdere
variabelen in het model controleert
1 Analyze
2 Regression
4