Samenvatting kwantitatief onderzoek
Inhoudsopgave
Samenvatting kwantitatief onderzoek....................................................................1
Data samenvatten............................................................................................... 2
Variabiliteit....................................................................................................... 3
Tabellen en grafieken....................................................................................... 4
Normaalverdeling................................................................................................ 5
Kansen................................................................................................................ 5
Z-scores............................................................................................................... 6
Standaardiseren.................................................................................................. 6
Schalen maken.................................................................................................... 7
Factoranalyse................................................................................................... 7
Betrouwbaarheidsanalyse................................................................................ 8
Steekproevenverdeling....................................................................................... 8
Hypothese formuleren en toetsen.......................................................................9
Typen fouten.................................................................................................. 11
T-toetsen........................................................................................................... 11
One sample t-toets......................................................................................... 13
T-toets voor onafhankelijke groepen (independent samples).........................13
Chi kwadraat..................................................................................................... 15
Correlatie (vs. Causatie).................................................................................... 16
Verklaarde variantie....................................................................................... 19
Spurieuze correlatie....................................................................................... 20
Outliers & non-lineaire relaties.......................................................................20
Regressie........................................................................................................... 21
Bivariate regressie......................................................................................... 21
Multivariate regressie..................................................................................... 25
Mediatie............................................................................................................ 26
Moderatie.......................................................................................................... 28
Extra informatie................................................................................................. 29
1
,Twee soorten statistiek:
1. Beschrijvende statistiek: 100% zekerheid, want steekproef = populatie (of
er is geen steekproef).
2. Inferentiële statistiek: geen 100% zekerheid, steekproef is niet gelijk aan
de gehele populatie.
Populatie Steekproef
Groep waar je uitspraken over wil Een onderdeel van je populatie
doen
Symbolen: Symbolen:
Data samenvatten
Eén manier om data te typeren: meetniveaus
Kwantitatief zonder ordening
Norminaal Bijv. geslacht, haarkleur
Categorisch
Kwantitatief met ordening
Ordiaal Bijv. opleidingsniveau Steeds meer
informatie
Betekenisvolle verschillen tussen stappen en
Interval gelijke intervallen tussen waarden.
Bijv. temperatuur in graden celcius
Continu Betekenisvolle verschillen tussen stappen en
gelijke intervallen tussen waarden + een
Ratio absoluut nulpunt.
Bijv. inkomen in euro’s, leeftijd in jaren,
lengte in cm
Meetniveaus hebben consequenties voor:
Kiezen van centrummaten om data samen te vatten
Type statistische toetsen die je kan uitvoeren
Centrummaten --> waar bevindt het grootste deel van de data zich?
1. Gemiddelde: som van alle scores, gedeeld door het aantal observaties
2. Mediaan: middelste score (oneven aantal) of gemiddelde van twee
middelste scores (even aantal). De verdeling van een variabele kan ook
meerdere verschillende modi hebben. De verdeling is dan bimodaal.
3. Modus: waarde die het vaakst voorkomt (waarde met de hoogste
frequentie)
2
,Gemiddelde Mediaan Modus
Te gebruiken bij Te gebruiken bij Bij nominaal meetniveau
interval/ratio meetniveau interval/ratio
meetniveau
Beïnvloed door outliers Minder invloed van Is ook te gebruiken bij
outliers! numerieke waarden! Maar
niet altijd zinvol bij heel
gedetailleerde (ratio)
variabelen.
Welke centrummaat kies je?
Norminaal Ordinaal Interval/ratio
Modus Kan alle 3 Gemiddelde of
(Likertschalen mediaan
vaak gezien als
interval)
Variabiliteit
We willen ook informatie over de verdeling van scores
• Waar liggen de meeste scores?
• Vooral aan één kant?
• Liggen de scores ver uit elkaar?
• Komen scores even vaak voor?
Variabiliteit = spreiding
Spreiding is een term voor hoe erg data verschillen en afwijken van de
centrummaat.
Drie verschillende metingen voor variabiliteit:
1. Bereik = Waarde van hoogste score – waarde van laagste score (h – l)
2. Variantie: tussenstap van standaarddeviatie
Berekening:
1. Noteer alle scores (X-waarden)
2. Bereken het gemiddelde
3. Bereken de afwijking van elke X-waarde
4. Kwadrateer de afwijkingen
5. Bereken de kwadratensom
6. Bereken de variantie
7. Bereken de standaarddeviatie: wortel van variantie
3. Standaarddeviatie = gemiddelde afwijking van het gemiddelde
Zelfde eenheid als originele variabele
3
, Bereik Variantie Standaarddevia
tie
Voordelen Makkelijk te Alle waarden Alle waarden
berekenen tellen mee tellen mee
Grotere Makkelijker te
afwijkingen interpreteren
uitvergroot
(kwadraat)
Nadelen Alleen hoogste en Moeilijk te
laagste waarden interpreteren
tellen mee
Gevoelig voor
extreme waarden
(outliers)
Tabellen en grafieken
Richtlijnen voor tabellen:
• Duidelijke titel
• Nummer je tabellen (bijv. Tabel 1: Beschrijvende statistieken)
• Label je rijen en kolommen
• Maak een duidelijke lay-out (kopieer niet direct uit SPSS)
• Verwijs naar de bron van de data
• Noem de meeteenheid (bijv. % of m)
• Gebruik niet te veel decimalen en overbodige informatie!
Een figuur kan handiger zijn dan een tabel!
• Veel informatie op een plek
• Makkelijker om patronen te zien in de data
• Doel = versimpelen, niet ‘opscheppen’ met ingewikkelde figuren!
• Type grafiek moet passen bij type data (meetniveaus)
Staafdiagram
• Voor categorische data (LET OP! Likert-schalen --> continue variabelen)
• Frequentie of % per categorie
• Staven staan los van elkaar, want: geen continue schaal, maar losse
categorieen zonder betekenisvolle intervallen!
Histogram
• Voor continue variabelen
• Het gekleurde gebieden (de staven bij elkaar) weergeven het aantal
observaties
• De staven raken elkaar
4
,Bimodale verdeling
Er zijn twee toppen of ‘modi’.
Er zijn 2 groepen wat betreft test
scores: studenten die wel geleerd
hebben, en studenten die niet
geleerd hebben.
Normaalverdeling
Eigenschappen normaalverdeling:
Gekenmerkt door gemiddelde (μ) en
standaarddeviatie (σ)
Symmetrisch
Gemiddelde = mediaan
Staarten zijn asymptotisch (ze
benaderen 0)
Kenmerken van normaalverdeling:
~99,7% binnen 3𝜎
~95% binnen 2𝜎
~68% binnen 1𝜎
= de empirische regel
Kansen
Door de empirische regel en oppervlakte = % van de score, kunnen we iets
zeggen over:
1. Percentages
2. Proportie (percentage : 100)
3. Kans
Voor elke normaal verdeelde variabele, gelden de volgende kansen om een
willekeurig persoon te vinden met een score:
tussen z = 0 en z = 𝜇 + 1𝜎 -->p = 0,341
tussen z = 𝜇 - 1𝜎 en z = 𝜇 + 1𝜎 -->p = 0,682
tussen z = 𝜇 - 2𝜎 en z = 𝜇 + 2𝜎 -->p = 0,954
We kunnen vragen beantwoorden over: percentage, proportie, kans.
5
, Let op kansnotatie: p(X...) = …
Z-scores
Maar: wat kunnen we met andere waarden dan precies -2σ, -1σ, +1σ of +2σ?
Oplossing: z-scores!
Z-scores zijn uitgedrukt in standaarddeviaties
We kunnen ze berekenen met de formule
Alle z-scores corresponderen met een bepaalde oppervlakte onder
de normaalverdeling
Met een z-tabel kunnen we opzoeken
- Welke oppervlakte (onder de normaalverdeling) er hoort bij een bepaalde
z-score
- Welke z-score er hoort bij een bepaalde oppervlakte
Stappen om percentage te berekenen bij een oppervlakte:
1. Bereken de z-score
2. Welke oppervlakte (= proportie/kans) onder de verdeling willen we weten?
3. Zoek de oppervlakte op in de z-tabel
Let op: dit kan alleen bij variabelen die normaal verdeeld zijn!
- Daarom bekijken we onze data eerst in een grafiek (histogram)
Standaardiseren
Hoe kunnen we waarden vergelijken?
• Verschillen in tijd
• Verschillen tussen contexten
Data transformeren --> standaardiseren
Ofwel, x-waarde wordt z-score (kan alleen bij continue variabelen)
Z-score = een (voorbeeld van een) gestandaardiseerde variabele
Meeteenheid = standaarddeviaties
Je kunt het ook omdraaien: aan de hand van een z-score de X-waarde berekenen.
Z-score: meet hoeveel standaarddeviaties een score afwijkt van het gemiddelde
Positieve z-score: boven gemiddelde
Negatieve z-score: onder gemiddelde
Z = 0: gelijk aan gemiddelde
Z-verdeling (gestandaardiseerde variabele): 𝜇 = 0, σ = 1
Met de z-scores kunnen niet alle contexten worden vergeleken. Denk altijd na of
standaardiseren je levert wat je wil weten (want bijv. inkomen van land A en B
vergelijken, dan heb je ook nog verschillen in kosten van leven, etc)
6
Inhoudsopgave
Samenvatting kwantitatief onderzoek....................................................................1
Data samenvatten............................................................................................... 2
Variabiliteit....................................................................................................... 3
Tabellen en grafieken....................................................................................... 4
Normaalverdeling................................................................................................ 5
Kansen................................................................................................................ 5
Z-scores............................................................................................................... 6
Standaardiseren.................................................................................................. 6
Schalen maken.................................................................................................... 7
Factoranalyse................................................................................................... 7
Betrouwbaarheidsanalyse................................................................................ 8
Steekproevenverdeling....................................................................................... 8
Hypothese formuleren en toetsen.......................................................................9
Typen fouten.................................................................................................. 11
T-toetsen........................................................................................................... 11
One sample t-toets......................................................................................... 13
T-toets voor onafhankelijke groepen (independent samples).........................13
Chi kwadraat..................................................................................................... 15
Correlatie (vs. Causatie).................................................................................... 16
Verklaarde variantie....................................................................................... 19
Spurieuze correlatie....................................................................................... 20
Outliers & non-lineaire relaties.......................................................................20
Regressie........................................................................................................... 21
Bivariate regressie......................................................................................... 21
Multivariate regressie..................................................................................... 25
Mediatie............................................................................................................ 26
Moderatie.......................................................................................................... 28
Extra informatie................................................................................................. 29
1
,Twee soorten statistiek:
1. Beschrijvende statistiek: 100% zekerheid, want steekproef = populatie (of
er is geen steekproef).
2. Inferentiële statistiek: geen 100% zekerheid, steekproef is niet gelijk aan
de gehele populatie.
Populatie Steekproef
Groep waar je uitspraken over wil Een onderdeel van je populatie
doen
Symbolen: Symbolen:
Data samenvatten
Eén manier om data te typeren: meetniveaus
Kwantitatief zonder ordening
Norminaal Bijv. geslacht, haarkleur
Categorisch
Kwantitatief met ordening
Ordiaal Bijv. opleidingsniveau Steeds meer
informatie
Betekenisvolle verschillen tussen stappen en
Interval gelijke intervallen tussen waarden.
Bijv. temperatuur in graden celcius
Continu Betekenisvolle verschillen tussen stappen en
gelijke intervallen tussen waarden + een
Ratio absoluut nulpunt.
Bijv. inkomen in euro’s, leeftijd in jaren,
lengte in cm
Meetniveaus hebben consequenties voor:
Kiezen van centrummaten om data samen te vatten
Type statistische toetsen die je kan uitvoeren
Centrummaten --> waar bevindt het grootste deel van de data zich?
1. Gemiddelde: som van alle scores, gedeeld door het aantal observaties
2. Mediaan: middelste score (oneven aantal) of gemiddelde van twee
middelste scores (even aantal). De verdeling van een variabele kan ook
meerdere verschillende modi hebben. De verdeling is dan bimodaal.
3. Modus: waarde die het vaakst voorkomt (waarde met de hoogste
frequentie)
2
,Gemiddelde Mediaan Modus
Te gebruiken bij Te gebruiken bij Bij nominaal meetniveau
interval/ratio meetniveau interval/ratio
meetniveau
Beïnvloed door outliers Minder invloed van Is ook te gebruiken bij
outliers! numerieke waarden! Maar
niet altijd zinvol bij heel
gedetailleerde (ratio)
variabelen.
Welke centrummaat kies je?
Norminaal Ordinaal Interval/ratio
Modus Kan alle 3 Gemiddelde of
(Likertschalen mediaan
vaak gezien als
interval)
Variabiliteit
We willen ook informatie over de verdeling van scores
• Waar liggen de meeste scores?
• Vooral aan één kant?
• Liggen de scores ver uit elkaar?
• Komen scores even vaak voor?
Variabiliteit = spreiding
Spreiding is een term voor hoe erg data verschillen en afwijken van de
centrummaat.
Drie verschillende metingen voor variabiliteit:
1. Bereik = Waarde van hoogste score – waarde van laagste score (h – l)
2. Variantie: tussenstap van standaarddeviatie
Berekening:
1. Noteer alle scores (X-waarden)
2. Bereken het gemiddelde
3. Bereken de afwijking van elke X-waarde
4. Kwadrateer de afwijkingen
5. Bereken de kwadratensom
6. Bereken de variantie
7. Bereken de standaarddeviatie: wortel van variantie
3. Standaarddeviatie = gemiddelde afwijking van het gemiddelde
Zelfde eenheid als originele variabele
3
, Bereik Variantie Standaarddevia
tie
Voordelen Makkelijk te Alle waarden Alle waarden
berekenen tellen mee tellen mee
Grotere Makkelijker te
afwijkingen interpreteren
uitvergroot
(kwadraat)
Nadelen Alleen hoogste en Moeilijk te
laagste waarden interpreteren
tellen mee
Gevoelig voor
extreme waarden
(outliers)
Tabellen en grafieken
Richtlijnen voor tabellen:
• Duidelijke titel
• Nummer je tabellen (bijv. Tabel 1: Beschrijvende statistieken)
• Label je rijen en kolommen
• Maak een duidelijke lay-out (kopieer niet direct uit SPSS)
• Verwijs naar de bron van de data
• Noem de meeteenheid (bijv. % of m)
• Gebruik niet te veel decimalen en overbodige informatie!
Een figuur kan handiger zijn dan een tabel!
• Veel informatie op een plek
• Makkelijker om patronen te zien in de data
• Doel = versimpelen, niet ‘opscheppen’ met ingewikkelde figuren!
• Type grafiek moet passen bij type data (meetniveaus)
Staafdiagram
• Voor categorische data (LET OP! Likert-schalen --> continue variabelen)
• Frequentie of % per categorie
• Staven staan los van elkaar, want: geen continue schaal, maar losse
categorieen zonder betekenisvolle intervallen!
Histogram
• Voor continue variabelen
• Het gekleurde gebieden (de staven bij elkaar) weergeven het aantal
observaties
• De staven raken elkaar
4
,Bimodale verdeling
Er zijn twee toppen of ‘modi’.
Er zijn 2 groepen wat betreft test
scores: studenten die wel geleerd
hebben, en studenten die niet
geleerd hebben.
Normaalverdeling
Eigenschappen normaalverdeling:
Gekenmerkt door gemiddelde (μ) en
standaarddeviatie (σ)
Symmetrisch
Gemiddelde = mediaan
Staarten zijn asymptotisch (ze
benaderen 0)
Kenmerken van normaalverdeling:
~99,7% binnen 3𝜎
~95% binnen 2𝜎
~68% binnen 1𝜎
= de empirische regel
Kansen
Door de empirische regel en oppervlakte = % van de score, kunnen we iets
zeggen over:
1. Percentages
2. Proportie (percentage : 100)
3. Kans
Voor elke normaal verdeelde variabele, gelden de volgende kansen om een
willekeurig persoon te vinden met een score:
tussen z = 0 en z = 𝜇 + 1𝜎 -->p = 0,341
tussen z = 𝜇 - 1𝜎 en z = 𝜇 + 1𝜎 -->p = 0,682
tussen z = 𝜇 - 2𝜎 en z = 𝜇 + 2𝜎 -->p = 0,954
We kunnen vragen beantwoorden over: percentage, proportie, kans.
5
, Let op kansnotatie: p(X...) = …
Z-scores
Maar: wat kunnen we met andere waarden dan precies -2σ, -1σ, +1σ of +2σ?
Oplossing: z-scores!
Z-scores zijn uitgedrukt in standaarddeviaties
We kunnen ze berekenen met de formule
Alle z-scores corresponderen met een bepaalde oppervlakte onder
de normaalverdeling
Met een z-tabel kunnen we opzoeken
- Welke oppervlakte (onder de normaalverdeling) er hoort bij een bepaalde
z-score
- Welke z-score er hoort bij een bepaalde oppervlakte
Stappen om percentage te berekenen bij een oppervlakte:
1. Bereken de z-score
2. Welke oppervlakte (= proportie/kans) onder de verdeling willen we weten?
3. Zoek de oppervlakte op in de z-tabel
Let op: dit kan alleen bij variabelen die normaal verdeeld zijn!
- Daarom bekijken we onze data eerst in een grafiek (histogram)
Standaardiseren
Hoe kunnen we waarden vergelijken?
• Verschillen in tijd
• Verschillen tussen contexten
Data transformeren --> standaardiseren
Ofwel, x-waarde wordt z-score (kan alleen bij continue variabelen)
Z-score = een (voorbeeld van een) gestandaardiseerde variabele
Meeteenheid = standaarddeviaties
Je kunt het ook omdraaien: aan de hand van een z-score de X-waarde berekenen.
Z-score: meet hoeveel standaarddeviaties een score afwijkt van het gemiddelde
Positieve z-score: boven gemiddelde
Negatieve z-score: onder gemiddelde
Z = 0: gelijk aan gemiddelde
Z-verdeling (gestandaardiseerde variabele): 𝜇 = 0, σ = 1
Met de z-scores kunnen niet alle contexten worden vergeleken. Denk altijd na of
standaardiseren je levert wat je wil weten (want bijv. inkomen van land A en B
vergelijken, dan heb je ook nog verschillen in kosten van leven, etc)
6