Statistische Methoden in Onderzoek II
Deze eerste verzameling oefeningen gaat het onderzoeken van (veronderstelde) samenhangen
tussen twee kwalitatieve variabelen.
Module 1: Bivariate analyse, kruistabel
Causaal relatieschema schoolvoorbeeld: illustratie veronderstelde verklaringen van variatie in
schulden bij afstuderen (Debts)
Onderzoek samenhang tussen twee kwalitatieve variabelen
Alle gegevens worden nominaal behandelt al zijn ze ordinaal. Er wordt alleen gebruik gemaakt
van frequenties.
Wat weten we over onderzoek naar samenhang tussen twee kwalitatieve variabelen?
• Kenmerkend: Uitkomsten kwalitatieve variabelen hebben geen afstandsinterpretatie,
vaak ook geen volgorde-interpretatie
• Gevolg: Er kan alleen geteld worden hoe vaak combinaties van uitkomsten voorkomen;
het berekenen van gemiddelden of varianties is voor deze variabelen niet zinvol
, • Oplossingen: Maken (2-dimensionale) frequentietabellen (kruistabellen) of
staafdiagrammen
• Probleem: Hoe zijn samenhangen te ontdekken in kruistabellen of staafdiagrammen?
Hoe wordt statistische (on-)afhankelijkheid onderzocht?
Achtergrond Pearson’s X2 grootheid onderzoek gegeven kansverdelingen
Idee Pearson’s χ 2 -toetsgrootheid
• Twee voorbeelden berekenen verwachte frequenties en ontwikkeling van Pearson’s χ 2 -
toetsgrootheid:
o Toepassing 1: toets de veronderstelling dat de locatie van de 30 universiteiten uit
het schoolvoorbeeld uniform verdeeld is (de drie uitkomsten hebben gelijke
kans, vgl. dobbelsteen)
o Toepassing 2: toets de veronderstelling dat de gezamenlijke verdeling van locatie
en type universiteit overeenkomt met een gegeven verdeling uit eerder
onderzoek
• In beide toepassingen is de te toetsen hypothese van meet af aan volledig
gespecificeerd en wordt er niet getoetst op onafhankelijkheid
Toepassing 1: gegeven univariate verdeling → onderzoeken of de variabelen uniform verdeeld
zijn, daarom is H0 ook gelijk verdeelt over 3 mogelijkheden
,Een discrete kansvariabele heet ’uniform verdeeld’ wanneer alle mogelijke uitkomsten van de
kansvariabele een gelijke kans op optreden hebben
Pearson χ 2 -grootheid: som gekwadrateerde verschillen tussen waargenomen en verwachte
celfrequenties gedeeld door de verwachte celfrequenties
De grootheid gedraagt zich onder de nulhypothese als een χ 2 -verdeelde kansvariabele met K ´
1 vrijheidsgraden
Waargenomen frequenties worden verkregen uit de steekproef; verwachte frequenties worden
bepaald op basis van de veronderstellingen beschreven door de nulhypothese
Niet parametische test → alleen kijken of de data bij een bepaalde verdeling past, geen
uitspraken over een data (variantie, gemiddelde) ook wel the goodness of fittest
Deze toetsen worden altijd rechtseenzijdig getoetst om verwerpingsgebied te vinden.
K= aantal opties met aantal alpha
, Toepassing 2: gegeven bivariate verdeling → kijken of de steekproef overeenkomt met de
gegeven verdeling om populatie te beschrijven
Pearson χ 2 -grootheid: som gekwadrateerde verschillen tussen waargenomen en verwachte
celfrequenties gedeeld door de verwachte celfrequenties
De grootheid gedraagt zich onder de nulhypothese als een χ 2 -verdeelde kansvariabele met K -
1 vrijheidsgraden, waarbij K = r * c