Leen Marynissen, Wim Christiaens, Danny Rouckhout
Hoofdstuk 1 – Van probleem naar analyse
Statistiek II is de Inleiding Multivariate Analyse
Multivariate analyse = analyse van sociaalwetenschappelijke probleemstellingen met 3
of meer variabelen en een verzamelnaam voor een hele familie analysetechnieken.
Voorbeelden: Hoe politiek vertrouwen beïnvloed door onderwijsniveau en tevredenheid
overheidsfunctioneren? Hoe wordt leesvaardigheid van kinderen beïnvloed door klastype, leerling en
leerkrachtkenmerken? Hoe worden attitudes van mannen met een migratieachtergrond beïnvloed
door herkomst, migratieleeftijd en vestigingsplaats? Hoeveel verschillende attitudes van
respondenten (en welke) worden gemeten door een batterij items?
Multivariate analysetechnieken = verzamelnaam voor groep van statistische
technieken gericht op analyse van samenhang tussen drie of meer variabelen onderling.
Sterk heterogeen qua opzet en finaliteit:
- analyse van probleemkenmerk of probleemrelatie
- dependente versus niet-dependente technieken
- meetniveau van afhankelijke variabele
- meetniveau onafhankelijke variabelen
- aantal dimensies
- orthogonaliteit van dimensies
De keuze van de multivariate analysetechniek varieert in functie van de achterliggende
onderzoeksvraag. De analyse van het probleemkenmerk (bijvoorbeeld politiek vertrouwen of
zittenblijven) vraag naar de factoren die het kenmerk verklaren. En de analyse van de
probleemrelatie (bv. verschil objectieve bestaansonzekerheid naar gewest) dat kan verschil verklaard
worden door regionale variatie in socio-economische positie van gezinshoofd. En tot slot de veelheid
van items/uitspraken bevraagd in survey: welke achterliggende opinies/attitudes worden gemeten
(synthese/datareductie)? Maar ook meetniveau afhankelijke variabele, aantal afhankelijke variabelen,
meetniveau afhankelijke variabelen, het (niet-)lineaire karakter van de effecten, additieve karakter
van effecten, orthogonaliteit van onderscheiden dimensies leiden tot verschillende
modelspecificaties/analysetechnieken.
Types variabelen:
Types samenhang:
1
, Symmetrische samenhang tussen twee kenmerken: er wordt geen onderscheid
gemaakt tussen te verklaren (afhankelijke) en verklarende (onafhankelijke)
variabelen. Twee variabelen die je opmeet, bijvoorbeeld werk en het hebben van
kinderen die met elkaar samenhangen. MAAR er is geen onderscheid tussen de
afhankelijke en onafhankelijke variabelen.
Asymmetrische samenhang waarbij verklarende (onafhankelijke) variabele een lineair
(causaal) effect uitoefent op een te verklaren (afhankelijke) variabele. Bij een lineair
effect heeft eenzelfde verandering in de onafhankelijke variabele steeds eenzelfde
verandering in de afhankelijke variabele tot gevolg.
Asymmetrische samenhang waarbij onafhankelijke variabele niet-lineair effect
uitoefent op afhankelijke variabele. Bij niet-lineair effect wordt verandering in
afhankelijke variabele ten gevolge van eenzelfde verandering in onafhankelijke
variabele gradueel groter of kleiner.
Interactie-effect: asymmetrische samenhang waarbij de combinatie van twee of meer
onafhankelijke variabelen een causaal effect uitoefent op de afhankelijke variabele.
Bijvoorbeeld het effect van roken en alcoholgebruik die een gecombineert effect
geven van twee onafhankelijke variabelen.
Fasen in sociaalwetenschappelijk onderzoek (cyclisch): probleemstelling, onderzoeksontwerp,
dataverzameling, data-analyse en rapportage. Statistiek II richt zich op de laatste twee.
Jezelf eerst de vraag stellen met welke variabelen je werkt om vervolgens een techniek te kunnen
bepalen.
Dummy = variabele met 2 categorieën, namelijk 0 en 1. Correlatie = samenhang
Bivariate causale structuur = causale interpretatie regressieresultaten mogelijk als
gegevens afkomstig zijn van een experimenteel design waar personen random aan experimentele
condities warden toegewezen. Het moet dus random zijn om valide uitspraken te kunnen doen.
Model 1 bivariate causale structuur = twee variabelen en de samenhang daarvan. Zonder dat
er andere variabelen tussen komen.
Model 2 bivariate causale structuur = socio-demografische en socio-economische kenmerken
opnemen. Bijvoorbeeld de leeftijd, woonplaats of het totaal gezinsinkomen.
Model 3 bivariate causale structuur = nog extra karakteristieken opnemen.
Cijfers kleiner dan 1 geven een negatief effect/verband, cijfers groter dan 1 geven een positief effect.
Schijnverband = schijnbare causaliteit. Geen causaliteit. De causaliteit komt ergens anders
door die de variabelen beide beïnvloed en verstoord. Het verband wordt verklaard door een derde
variabele.
Indirecte causaliteit = er is een intermediaire of tussenliggende variabele tussen de
relatie. Er is wel een verband, maar dan met een omweg van een variabele. Causale stappen via
tussenliggende variabelen.
Eloboratie = neemt bij regressietechnieken de vorm aan van een vergelijking van
verschillende modelspecificaties (i.e. vergelijken van regressieparameter voor en na controle).
2
,Voorbeeld politiek vertrouwen:
Politiek vertrouwen vormt een voorwaarde voor het goed functioneren van de democratie. In welke
mate wordt politiek vertrouwen beïnvloed door factoren als leeftijd, opleidingsniveau en de
perceptie/publieke opinie over het functioneren van overheidsinstellingen? De verklarende of
onafhankelijke variabelen zijn dan opleiding, perceptie instellingen en de te verklaren afhankelijke
variabele is het politiek vertrouwen. Dit is een CONVERGENTE (CAUSALE) STRUCTUUR wanneer er
een pijl toekomt. Zie hieronder.
Causaal staat tussen haakjes omdat het in de sociale
wetenschappen niet altijd goed te verklaren valt. Echter wil je het
verband aan de hand van multivariate technieken zuiver te krijgen.
Om te beginnen moet je allereerst data operationaliseren. Bijvoorbeeld:
• European Social Survey (2006): een tweejaarlijkse survey in een 30-tal Europese landen;
• Politiek vertrouwen (PTRUST): somschaal op basis van items TRSTPRL (trust in country’s
parliament), TRSTPLT (trust in politicians) en TRSTEP (trust in European parliament);
• Perceptie functioneren instellingen (PERFORMANCE): somschaal die tevredenheid meet over
economie (STFECO), nationale regering (STFGOV), democratie (STFDEM), onderwijs (STFEDU)
en gezondheidszorg (STFHLTH);
• Opleidingsniveau (EDUYRS): aantal jaren in voltijds dagonderwijs.
MEERVOUDIGE REGRESSIE:
In dit voorbeeld starten we met een
bivariate regressie-analyse.
Vervolgens wordt een additief model
met ongecorreleerde onafhankelijke
variabelen uitgevoerd. Enzovoorts.
De modellen worden stapsgewijs
uitgevoerd.
Je start van bivariaat naar multivariaat.
Zie hieronder voor uitleg van de
modellen.
Bivariate regressie-analyse = een analyse met 2 variabelen. Een onafhankelijke en een
afhankelijke.
Additief model met ongecorreleerde onafhankelijke variabelen =
regressieanalyse uitgebreid met meerdere variabelen. Bijvoorbeeld 1 afhankelijke en 3 onafhankelijke
variabelen.
Additief model met gecorreleerde onafhankelijke variabelen
(multicollineariteit) = correlatie met onafhankelijke variabelen. Correlatie betekent dat ze met
elkaar samenhangen.
Additief model met gecorreleerde onafhankelijke variabelen en niet-
lineaire effecten = een niet-lineair verband. Bij niet-lineair effect wordt verandering in
afhankelijke variabele ten gevolge van eenzelfde verandering in onafhankelijke variabele gradueel
groter of kleiner.
3
, Interactiemodel met gecorreleerde onafhankelijke variabelen = een direct
effect van 2 onafhankelijke variabelen, maar ook een gecombineerd effect van die twee variabelen.
Interactiemodel met gecorreleerde onafhankelijke variabelen en niet-
lineaire effecten = interactie en niet-lineair effecten.
Echter zijn deze kwantitatief van aard (vierkantjes). Maar je hebt vaak ook variabelen die niet
kwantitatief zijn. Daarom kan je je model uitbreiden zodat je ook die variabelen kan meebrengen.
Voorbeeld etnische identiteit bij minderheid en niet kwantitatief
van aard:
In welke mate wordt de etnische identiteit/achtergrond benadrukt door Turkse en Marokkaanse
mannen in België en hoe varieert dit tussen beide nationaliteitsgroepen, en in functie van
migratieleeftijd en vestigingsplaats in België?
De afhankelijke variabele is dan het benadrukken van etnische identiteit en achtergrond en de
onafhankelijke variabelen zijn dan nationaliteitsgroepen, en in functie van migratieleeftijd en
vestigingsplaats in België. Dan kan je daar opnieuw een schema van maken en dan zie je dat de
onafhankelijke variabelen niet allemaal kwantitatief van aard zijn. Je weet dit door de
operationalisatie. Het zijn categorische variabelen. Dit is een regressie met een dummy-variabelen. Je
zal zien dat er verschillende analysetechnieken zijn om het te onderzoeken. Je kan exact dezelfde
variabalen en de samenhang daartussen behandelen door middel van een t-test bij een bivariate
structuur. Zie hieronder voor een MEERVOUDIGE REGRESSIE MET DUMMY-VARIABELEN EN EEN
VARIANTIEANALYSE & MEERVOUDIGE CLASSIFICATIE ANALYSE.
Ook voor je afhankelijke variabele kan je een niet-kwantitatieve opnemen. Dit bijvoorbeeld wanneer
je bijvoorbeeld onderzoekt welke factoren invloed hebben op Turkse en Marokkaanse kinderen op
het zittenblijven. Wel of niet zittenblijven zijn dan de afhankelijke variabelen. Je krijgt dan een
LOGISTISCHE REGRESSIEANALYSE. Zie hieronder.
Als bijvoorbeeld de afhankelijke variabele 3 aspecten heeft (dit blijkt uit de operationalisatie) zoals
bijvoorbeeld bij de arbeidsrigime; voltijdswerk, deeltijdswerk en werkloosheid, dan heb je 3 of meer
antwoordmogelijkheden. En dan heeft je afhankelijke variabele 3 vakjes (dit is bij 3 of meer). Je krijgt
dan een MULTINOMIAL LOGIT MODEL. Zie hieronder.
4