Aantekeningen Statistische Modellen 1
College 1 - 7 februari
Statistiek:
› Gaat over beschrijven en generaliseren van data
› Houdt zich dus bezig met generaliseren van uitkomsten
› Veel uitkomsten zijn gebaseerd op steekproeven en die te generaliseren
› Toch vaak uitspraken over grotere groep doen
› Onderzoekers zijn niet geïnteresseerd om individuen, maar om de gehele groep en
de te generaliseren groep
Thema’s in Statistische Modellen 1
› Hoe moet dat generaliseren?
› Welke technieken zijn er (en wanneer gebruik je welke)?
› Hoe kan SPSS helpen bij dit generaliseren?
› Doen onderzoekers het zelf wel altijd goed?
Dus:
› Technische vaardigheden voor eigen onderzoek
› Kritische houding t.o.v. bestaand onderzoek
Thema’s in Statistische Modellen 1
› Steekproevenverdeling
› Betrouwbaarheidsintervallen
› Significantietoetsen
› T-toetsen
• Voor gemiddelden
• Voor proporties
› Samenhang tussen twee categorische variabelen
› Regressieanalyse
Opfrissen van Inleiding Onderzoek
Terminologie
› Populatie: groep waarvan onderzoeker eigenschappen wil weten
› Parameter: numerieke samenvatting van eigenschap in populatie (datgene we willen
weten van de populatie)
› Steekproef: subgroep uit populatie die onderzocht wordt
› Statistic: numerieke samenvatting van eigenschap in steekproef
› Beschrijven 1 variabele
• Centrum
• Spreiding
• Verdeling
› Beschrijving samenhang 2 variabelen
• Bv. Correlatie, spearman’s rho, Gemiddelde absolute verschil etc.
› Kansrekening
,Kansrekening
› Gaat uit van random gebeurtenissen
› Voorspelt regelmaat op lange termijn random gebeurtenissen
• 4 kinderen: hoeveel meisjes random
• Heel vaak 4 kinderen: kansverdeling
› Geeft aan wat er op de lange duur gebeurt
› Steekproeftrekking ook een random gebeurtenis!
› Kansrekening gebruikt om hierover kansuitspraken te doen
› “Wat als ik heel vaak een steekproef zou trekken?”
Steekproevenverdeling
› Steekproevenverdeling (sampling distribution)
› Kansverdeling voor steekproeven
› Oftewel: wat is de verdeling als ik heel vaak een steekproef zou trekken? Wat voor
waardes kunnen er allemaal uitkomen?
Voorbeeld steekproevenverdeling
› Stel: je bent geïnteresseerd in het deel van de Amerikanen dat in 2020 voor Biden
zou stemmen
› Stel: in werkelijkheid was dit aantal 51.3%
› We nemen een steekproef van 50 mensen. Uitkomst 58% Biden
› Steekproef 2: 48% Biden
› Steekproef 3: 52% Biden
› Steekproef 4: 54% Biden
› Hoe meer steekproeven, hoe meer het naar het midden toe trekt
› Iedere steekproef (net) een andere uitkomst!
› Uitkomst dus een random variabele
Steekproevenverdeling
› Verzameling van veel van die steekproeven
› Hoe verschillen steekproeven van elkaar? (In plaats van
hoe mensen van elkaar verschillen)
› Steekproevenverdeling: kansverdeling die een kans
aangeven voor iedere mogelijke uitkomst
› NB: Welke uitkomsten zijn mogelijk?
Andere steekproevenverdeling (proportie)
› Kansen per staafje in principe “los”
uit te rekenen (later)
› Valt je iets op aan de verdeling?
, Stel, je trekt heel vaak een steekproef uit een populatie, dan de volgende bevindingen:
1. Steekproefgemiddelden variëren minder dan de losse scores in populatie
We zien:
a. Verdeling van steekproef- gemiddelden NIET zelfde als verdeling van scores in pop.
b. Variantie van steekproefgemiddelden is KLEINER dan variantie van scores in pop.
c. Gemiddelde van steekproefgemiddelden is ZELFDE als gemiddelde van scores in
pop.
2. Verdeling van steekproefgemiddelden is ‘meer’ normaal verdeeld dan de losse scores
in de populatie
Algemeen geldt:
Gemiddelde van steekproefgemiddelden (dus, als je héél vaak steekproef trekt) is HETZELFDE
als gemiddelde van scores in populatie.
Daarnaast: naarmate je n groter wordt, lijkt de verdeling van de steekproevenverdeling
steeds meer op een normale verdeling
= Centrale limietstelling (Central limit theorem)
Dit is onze ‘redding’ om niet te veel steekproeven te hoeven trekken.
Waarom is dat steekproefgemiddelden een goede inschatting is voor het gemiddelde van de
gehele populatie?
Intuïtief:
› Je trekt heel veel steekproeven
› Sommige gemiddelden hoger dan populatiegemiddelde, andere lager
› Gemiddelde van al die steekproefgemiddelden komt uit op populatiegemiddelde
Overzicht
› Altijd geldt:
› Altijd geldt: Als populatie exact normaal verdeeld is, steekproefgemiddelde exact
normaal verdeeld
› Als populatie niet normaal verdeeld is, en n groot, dan is steekproefgem. ongeveer
normaal verdeeld (=centrale limietstelling)
› Variantie van steekproefgemiddelden is KLEINER dan variantie van scores in de
populatie
Wat is de standaardfout?
› Maat voor spreiding tussen steekproefuitkomsten
› Dus: hoeveel spreiding is er tussen statistics als ik heel vaak een steekproef zou
nemen
› Blijkt bij gemiddelde samen te hangen met standaarddeviatie
• Dus: hoe groter je steekproef, hoe dichter steekproefuitkomsten bij elkaar
komen te liggen
College 1 - 7 februari
Statistiek:
› Gaat over beschrijven en generaliseren van data
› Houdt zich dus bezig met generaliseren van uitkomsten
› Veel uitkomsten zijn gebaseerd op steekproeven en die te generaliseren
› Toch vaak uitspraken over grotere groep doen
› Onderzoekers zijn niet geïnteresseerd om individuen, maar om de gehele groep en
de te generaliseren groep
Thema’s in Statistische Modellen 1
› Hoe moet dat generaliseren?
› Welke technieken zijn er (en wanneer gebruik je welke)?
› Hoe kan SPSS helpen bij dit generaliseren?
› Doen onderzoekers het zelf wel altijd goed?
Dus:
› Technische vaardigheden voor eigen onderzoek
› Kritische houding t.o.v. bestaand onderzoek
Thema’s in Statistische Modellen 1
› Steekproevenverdeling
› Betrouwbaarheidsintervallen
› Significantietoetsen
› T-toetsen
• Voor gemiddelden
• Voor proporties
› Samenhang tussen twee categorische variabelen
› Regressieanalyse
Opfrissen van Inleiding Onderzoek
Terminologie
› Populatie: groep waarvan onderzoeker eigenschappen wil weten
› Parameter: numerieke samenvatting van eigenschap in populatie (datgene we willen
weten van de populatie)
› Steekproef: subgroep uit populatie die onderzocht wordt
› Statistic: numerieke samenvatting van eigenschap in steekproef
› Beschrijven 1 variabele
• Centrum
• Spreiding
• Verdeling
› Beschrijving samenhang 2 variabelen
• Bv. Correlatie, spearman’s rho, Gemiddelde absolute verschil etc.
› Kansrekening
,Kansrekening
› Gaat uit van random gebeurtenissen
› Voorspelt regelmaat op lange termijn random gebeurtenissen
• 4 kinderen: hoeveel meisjes random
• Heel vaak 4 kinderen: kansverdeling
› Geeft aan wat er op de lange duur gebeurt
› Steekproeftrekking ook een random gebeurtenis!
› Kansrekening gebruikt om hierover kansuitspraken te doen
› “Wat als ik heel vaak een steekproef zou trekken?”
Steekproevenverdeling
› Steekproevenverdeling (sampling distribution)
› Kansverdeling voor steekproeven
› Oftewel: wat is de verdeling als ik heel vaak een steekproef zou trekken? Wat voor
waardes kunnen er allemaal uitkomen?
Voorbeeld steekproevenverdeling
› Stel: je bent geïnteresseerd in het deel van de Amerikanen dat in 2020 voor Biden
zou stemmen
› Stel: in werkelijkheid was dit aantal 51.3%
› We nemen een steekproef van 50 mensen. Uitkomst 58% Biden
› Steekproef 2: 48% Biden
› Steekproef 3: 52% Biden
› Steekproef 4: 54% Biden
› Hoe meer steekproeven, hoe meer het naar het midden toe trekt
› Iedere steekproef (net) een andere uitkomst!
› Uitkomst dus een random variabele
Steekproevenverdeling
› Verzameling van veel van die steekproeven
› Hoe verschillen steekproeven van elkaar? (In plaats van
hoe mensen van elkaar verschillen)
› Steekproevenverdeling: kansverdeling die een kans
aangeven voor iedere mogelijke uitkomst
› NB: Welke uitkomsten zijn mogelijk?
Andere steekproevenverdeling (proportie)
› Kansen per staafje in principe “los”
uit te rekenen (later)
› Valt je iets op aan de verdeling?
, Stel, je trekt heel vaak een steekproef uit een populatie, dan de volgende bevindingen:
1. Steekproefgemiddelden variëren minder dan de losse scores in populatie
We zien:
a. Verdeling van steekproef- gemiddelden NIET zelfde als verdeling van scores in pop.
b. Variantie van steekproefgemiddelden is KLEINER dan variantie van scores in pop.
c. Gemiddelde van steekproefgemiddelden is ZELFDE als gemiddelde van scores in
pop.
2. Verdeling van steekproefgemiddelden is ‘meer’ normaal verdeeld dan de losse scores
in de populatie
Algemeen geldt:
Gemiddelde van steekproefgemiddelden (dus, als je héél vaak steekproef trekt) is HETZELFDE
als gemiddelde van scores in populatie.
Daarnaast: naarmate je n groter wordt, lijkt de verdeling van de steekproevenverdeling
steeds meer op een normale verdeling
= Centrale limietstelling (Central limit theorem)
Dit is onze ‘redding’ om niet te veel steekproeven te hoeven trekken.
Waarom is dat steekproefgemiddelden een goede inschatting is voor het gemiddelde van de
gehele populatie?
Intuïtief:
› Je trekt heel veel steekproeven
› Sommige gemiddelden hoger dan populatiegemiddelde, andere lager
› Gemiddelde van al die steekproefgemiddelden komt uit op populatiegemiddelde
Overzicht
› Altijd geldt:
› Altijd geldt: Als populatie exact normaal verdeeld is, steekproefgemiddelde exact
normaal verdeeld
› Als populatie niet normaal verdeeld is, en n groot, dan is steekproefgem. ongeveer
normaal verdeeld (=centrale limietstelling)
› Variantie van steekproefgemiddelden is KLEINER dan variantie van scores in de
populatie
Wat is de standaardfout?
› Maat voor spreiding tussen steekproefuitkomsten
› Dus: hoeveel spreiding is er tussen statistics als ik heel vaak een steekproef zou
nemen
› Blijkt bij gemiddelde samen te hangen met standaarddeviatie
• Dus: hoe groter je steekproef, hoe dichter steekproefuitkomsten bij elkaar
komen te liggen