STATISTIEK IV (multivariate)
Inhoudstabel
Voorbereidende en beschrijvende multivariate data.......................................................................................................... 2
Missing data (MD) HOC1................................................................................................................................................. 4
Analyse missing data .................................................................................................................................................... 4
Outliers.......................................................................................................................................................................... 6
ANOVA (HOC2&3) .......................................................................................................................................................... 7
One-way ANOVA ......................................................................................................................................................... 7
Contrasten (Ψ) .............................................................................................................................................................. 8
Meervoudige vergelijkingen ....................................................................................................................................... 10
ANCOVA .................................................................................................................................................................... 11
Two-factor ANOVA .................................................................................................................................................... 11
Repeated measures ANOVA = REPANOVA .............................................................................................................. 12
Mixed designs ............................................................................................................................................................. 13
Regressie-analyse (HOC 4)............................................................................................................................................. 14
Meervoudige regressie ................................................................................................................................................ 14
Multicollineariteit ....................................................................................................................................................... 16
Logistische regressie (HOC5) ......................................................................................................................................... 17
Binair model ............................................................................................................................................ 17
Multinomiaal model .................................................................................................................................................... 19
Mediatie & moderatie (HOC6) ....................................................................................................................................... 20
Causaliteit ................................................................................................................................................................... 20
Mediatie analyse ......................................................................................................................................................... 21
Factoranalyse (HOC7) .................................................................................................................................................... 24
Exploratieve factor analyse (EFA) .............................................................................................................................. 24
Methoden voor FA ...................................................................................................................................................... 25
Functionele factor analyse .......................................................................................................................................... 26
Clusteranalyse (HOC8) ................................................................................................................................................... 28
Clustermodel ............................................................................................................................................................... 28
Structural Equation Modelling = SEM (HOC9) ............................................................................................................. 31
Confirmatorische Factor Analyse (CFA) .................................................................................................................... 31
Structural model .......................................................................................................................................................... 33
Pad analyse.................................................................................................................................................................. 34
SEM, So What?! ......................................................................................................................................................... 34
Netwerkanalyses (HOC10) ............................................................................................................................................. 35
Dankwoord...................................................................................................................................................................... 36
Terminologie ................................................................................................................................................................... 37
, 2
Voorbereidende en beschrijvende multivariate data
Stappenplan verkennen van statistische data:
1. Kijk naar de data
2. Organiseer de data (subsets, plots → geven zeer veel info coherent weer)
3. Beschrijf en vat samen (assumpties, outliers, missing data)
4. Interpreteren & verklaren
5. Verifiëren of herzien (besluit)
Assumpties/voorwaarden voor multivariate data-analyse (Herhaling STATISTIEK III)
1. Normaliteit (typisch symmetrische curve rond gemiddelde)
└> Kolmogorov-Smirnov test
└> In praktijk kan analyse adhv robuuste methodes als deze voorwaarde geschonden is
(bijvoorbeeld wanneer kurtosis & skewness sign. afw. van 0)
*een grote n beperkt deze impact #robuust
└> Grafisch: Normal P-P plot = vergelijkt cumulatieve verdeling van data met
normaalverdeling (OF Normal Q-Q plot voor kwantielen)
2. Homoskedasticiteit
= De variantie van de AV is gelijk voor alle niveaus van de OV
→ Geschonden: Heteroskedasticiteit = predicties zijn niet bij elk niveau van OV gelijk
→ Zie trechter:
3. Lineariteit
= rechtlijnig verband gebaseerd op correlatie
Word vaak impliciet veronderstelt, definitie
staat ook vaak ter discussie
Eventuele remedies voor schending voorwaarden:
└> Data transformatie (mogelijk om de assumpties zo wel te benaderen)
~> Nadelen: Interpretatie van resultaten is minder duidelijk
& als je kwadraten neemt verdwijnen je negatieve waarden
(bv. gekwadrateerde inkomensverschillen)
, 3
Veelgebruikte transformaties:
Macht (t) Transformatie Opmerkingen
2 Y2 Kwadraat, toename van de spreiding tussen hogere
vs lage scores, bijvoorbeeld met negatief geskewde
verdelingen
1 Y Ruwe data
½ √𝑌 Vierkantswortel, handig bij positief geskewde
verdelingen
0 log10Y Logaritmisch, bvb. Gebruik bij extreem positief
geskewde verdelingen.
*gebruik: Y'=log10(Y+1) indien er nullen in de
gegevens staan.
-1 1/Y Inverse, bvb. Omzetten van de reactietijden naar
reactiesnelheid.
*Om de macht te vinden waarmee je getransformeerde data het beste een normaalverdeing benadert kan je
ook een box-cox transformatie toepassen → Lambda
(‘mass’ package in R-studio)
*Kan ervoor zorgen dat je ANOVA significant word.
Dummie codering
= Non metrische categorische variabelen omzetten in een dichotome variabele
└> Een variabele met k categorieën wordt voorgesteld aan de hand van k – 1 dummy variabelen
Vb.
, 4
Missing data (MD) HOC1
Missing data = Ontbrekende waarden voor één of meerdere variabelen
└> Oorzaak:
└> Los/onafhankelijk van respondent
└> Procedure (bv. branching: indien “nee”, ga naar vraag x)
└> Codeerfouten?
└> Afhankelijk van respondent
└> Veel of weinig missing data?
└> Analyse van het profiel → systematiek in de missing data?
└> Impact:
└> Praktische impact los van type missing data
└> Bij weinig missing data eventueel n reduceren (bv. listwise deletion)
└> = NA weglaten
└> Bij veel missing data remediëren of n vergroten
└> Nonrandom missingness
= niet verwaarloosbare missingness, dit gaat over bias (bv. codeerfouten)
Analyse missing data
STAP1: Bepaal ernst → Verwaarloosbaar? → Niet remediëren
= verwacht, random missingness, toegelaten maar wel betekenisvol
(bv. skip-patroon omwille van branching)
→ NIET verwaarloosbaar? → Remediëren
└> Codeerfouten, fouten bij ingeven data
Vragenlijst niet volledig ingevuld
Weigerige items (gevoelig topic/geen mening)
Onbekende/onverwachte overlijdens met betrekking tot
de studie
STAP2: Hoeveel data?
< 10% → Prima
Voldoende complete cases
Geen non-randomness
→Listwise deletion, hot-deck imputation of regressie
10% - 20% =Hele respondent =Missing data vervangen -imputatie
MCAR weglaten bij een NA door gelijkaardige scores
door andere deelnemers
> 10% → Modelgebaseerde technieken (*kunnen best omgaan met elk soort
MAR missingness, maar zeker nodig bij MAR)
STAP3: Toevalligheid in de missing data nagaan
└> MCAR (Missing completely at random)
└> De sample vertoont een gelijke verdeling van random missing data over de groepen heen, de oorzaak
van de missing data is dus onafhankelijk van de data → Elke remedie is OK
*dit kan bijna niet in de realiteit