WEEK 1: Beschrijvende Statistiek
We gebruiken beschrijvende statistiek om een grote hoeveelheid data uit onze steekproef te
reduceren tot begrijpelijke samenvattingen.Het beschrijft feitelijke gegevens zonder conclusies
te trekken over een bredere populatie, vaak door middel van centrummaten, spreidingsmaten
en grafieken.
1. Meetniveaus→ Bepaald welke toetsen en centrummaten je mag gebruiken. Er is een
hiërarchie van laag naar hoog:
● Nominaal: Het laagste niveau. Bestaat uit categorieën zonder logische volgorde of
rangorde (bijv. nationaliteit of op welke partij je stemt: VVD, D66). Het is puur kwalitatief;
je kunt alleen groepen classificeren, tellen en percentages berekenen.
● Ordinaal: Er is wél een logische rangorde (bijv. van 'zeer links' tot 'zeer rechts'), maar de
afstand tussen die categorieën is ongelijk of we weten niet exact hoe groot die is.
● Interval: Er is een vaste rangorde én de stappen tussen waarden zijn overal exact even
groot en meetbaar (zoals temperatuur). Vanaf dit niveau mag je wiskundig rekenen met
gemiddelden.
● Ratio: Hetzelfde als interval, maar met een absoluut, natuurlijk nulpunt (0 betekent echt
⚠️
'niets', zoals bij inkomens of lengte).
● Gouden Vuistregel: Een ordinale variabele die uit 7 of meer categorieën bestaat
(bijv. een schaal van 1 tot 10), mag je in je onderzoek benaderen alsof het een
interval-ratio variabele is.
2. Centrale Tendentie (Wat is het 'typische' geval?) Om het middelpunt van je dataset te
beschrijven, gebruik je drie maten:
● Modus: De categorie die simpelweg het vaakst voorkomt. Dit is de enige maat die mag
bij nominale variabelen. Een verdeling kan één top hebben (unimodaal) of meerdere
(bimodaal).
● Mediaan: Het exacte middelpunt als je alle data van laag naar hoog ordent (50%
erboven, 50% eronder). Dit is een robuuste maat: hij raakt niet in de war door extreme
uitschieters (outliers).
● Gemiddelde: Het wiskundige zwaartepunt van de data (de som gedeeld door het
aantal). Dit mag je alleen gebruiken bij interval/ratio data. Het grote nadeel: het is zeer
gevoelig voor uitschieters.
3. Spreidingsmaten (Hoe ver ligt de data uit elkaar?) Een gemiddelde zegt vrijwel niets als
we niet weten of de data er heel dichtbij ligt, of enorm verspreid is. Daarvoor hebben we
spreidingsmaten:
● Range (Bereik): Het verschil tussen de hoogste en de laagste waarde. Zeer gevoelig
voor uitschieters, omdat het alle data ertussenin negeert.
● Interkwartielafstand (IQR): De afstand tussen de middelste 50% van je data (Kwartiel 3
min Kwartiel 1). Omdat dit de top 25% en bodem 25% wegsnijdt, heeft het geen last van
extreme scores.
● Variantie: → Dit meet hoe ver de getallen in je dataset uit elkaar liggen. → Je kijkt naar
de verschillen met het gemiddelde, maakt die kwadratisch (zodat alles positief wordt),
en neemt daar het gemiddelde van.
○ Standaarddeviatie
1
, ■ → Dit is gewoon de wortel van de variantie.
■ → Daardoor krijg je weer een waarde in dezelfde “eenheid” als je data.
■ → Het zegt: gemiddeld hoe ver zitten de waarden van het gemiddelde af.
4. Scheefheid (Skewness) Dit gaat over de vorm van je data. Is de verdeling een perfecte,
symmetrische klokvorm? In dat geval zijn het Gemiddelde, de Mediaan en de Modus exact
gelijk aan elkaar. Maar uitschieters kunnen de klokvorm 'scheef' trekken:
● Positieve scheefheid (Rechts-scheef): Er zijn een paar zeldzame, extreem hoge
uitschieters (bijv. het miljardeninkomen van een voetballer). Deze hoge bedragen
trekken het berekende gemiddelde onredelijk ver omhoog. Hierdoor wordt het
Gemiddelde hoger dan de Mediaan.
● Negatieve scheefheid (Links-scheef): Er zijn een paar extreem lage uitschieters. Deze
trekken het gemiddelde omlaag. Hierdoor zakt het Gemiddelde tot onder de Mediaan.
WEEK 2: Normaalverdeling en het Betrouwbaarheidsinterval
1. Eigenschappen van een perfecte Normaalverdeling Als data wél een perfect
symmetrische klokvorm aannemen, kennen we vaste wiskundige percentages (de 68-95-99
regel):
● Ongeveer 68% van de waarnemingen ligt tussen min 1 en plus 1 standaarddeviatie van
het gemiddelde.
● Ongeveer 95% van de data bevindt zich op maximaal 2 standaarddeviaties afstand.
● Vrijwel alles (99,7%) valt binnen 3 standaarddeviaties.
2. Z-Scores Een Z-score drukt letterlijk uit: "Hoeveel standaarddeviaties ligt dit specifieke
datapunt verwijderd van het gemiddelde?". Met deze Z-score kun je vervolgens in een
statistische tabel (zoals Appendix A) exact de kans opzoeken dat iemand hoger of lager scoort
dan die waarde. Omdat de verdeling symmetrisch is, ligt er onder een Z-score van -0.38 precies
evenveel procent van de data als boven een Z-score van +0.38.
2
We gebruiken beschrijvende statistiek om een grote hoeveelheid data uit onze steekproef te
reduceren tot begrijpelijke samenvattingen.Het beschrijft feitelijke gegevens zonder conclusies
te trekken over een bredere populatie, vaak door middel van centrummaten, spreidingsmaten
en grafieken.
1. Meetniveaus→ Bepaald welke toetsen en centrummaten je mag gebruiken. Er is een
hiërarchie van laag naar hoog:
● Nominaal: Het laagste niveau. Bestaat uit categorieën zonder logische volgorde of
rangorde (bijv. nationaliteit of op welke partij je stemt: VVD, D66). Het is puur kwalitatief;
je kunt alleen groepen classificeren, tellen en percentages berekenen.
● Ordinaal: Er is wél een logische rangorde (bijv. van 'zeer links' tot 'zeer rechts'), maar de
afstand tussen die categorieën is ongelijk of we weten niet exact hoe groot die is.
● Interval: Er is een vaste rangorde én de stappen tussen waarden zijn overal exact even
groot en meetbaar (zoals temperatuur). Vanaf dit niveau mag je wiskundig rekenen met
gemiddelden.
● Ratio: Hetzelfde als interval, maar met een absoluut, natuurlijk nulpunt (0 betekent echt
⚠️
'niets', zoals bij inkomens of lengte).
● Gouden Vuistregel: Een ordinale variabele die uit 7 of meer categorieën bestaat
(bijv. een schaal van 1 tot 10), mag je in je onderzoek benaderen alsof het een
interval-ratio variabele is.
2. Centrale Tendentie (Wat is het 'typische' geval?) Om het middelpunt van je dataset te
beschrijven, gebruik je drie maten:
● Modus: De categorie die simpelweg het vaakst voorkomt. Dit is de enige maat die mag
bij nominale variabelen. Een verdeling kan één top hebben (unimodaal) of meerdere
(bimodaal).
● Mediaan: Het exacte middelpunt als je alle data van laag naar hoog ordent (50%
erboven, 50% eronder). Dit is een robuuste maat: hij raakt niet in de war door extreme
uitschieters (outliers).
● Gemiddelde: Het wiskundige zwaartepunt van de data (de som gedeeld door het
aantal). Dit mag je alleen gebruiken bij interval/ratio data. Het grote nadeel: het is zeer
gevoelig voor uitschieters.
3. Spreidingsmaten (Hoe ver ligt de data uit elkaar?) Een gemiddelde zegt vrijwel niets als
we niet weten of de data er heel dichtbij ligt, of enorm verspreid is. Daarvoor hebben we
spreidingsmaten:
● Range (Bereik): Het verschil tussen de hoogste en de laagste waarde. Zeer gevoelig
voor uitschieters, omdat het alle data ertussenin negeert.
● Interkwartielafstand (IQR): De afstand tussen de middelste 50% van je data (Kwartiel 3
min Kwartiel 1). Omdat dit de top 25% en bodem 25% wegsnijdt, heeft het geen last van
extreme scores.
● Variantie: → Dit meet hoe ver de getallen in je dataset uit elkaar liggen. → Je kijkt naar
de verschillen met het gemiddelde, maakt die kwadratisch (zodat alles positief wordt),
en neemt daar het gemiddelde van.
○ Standaarddeviatie
1
, ■ → Dit is gewoon de wortel van de variantie.
■ → Daardoor krijg je weer een waarde in dezelfde “eenheid” als je data.
■ → Het zegt: gemiddeld hoe ver zitten de waarden van het gemiddelde af.
4. Scheefheid (Skewness) Dit gaat over de vorm van je data. Is de verdeling een perfecte,
symmetrische klokvorm? In dat geval zijn het Gemiddelde, de Mediaan en de Modus exact
gelijk aan elkaar. Maar uitschieters kunnen de klokvorm 'scheef' trekken:
● Positieve scheefheid (Rechts-scheef): Er zijn een paar zeldzame, extreem hoge
uitschieters (bijv. het miljardeninkomen van een voetballer). Deze hoge bedragen
trekken het berekende gemiddelde onredelijk ver omhoog. Hierdoor wordt het
Gemiddelde hoger dan de Mediaan.
● Negatieve scheefheid (Links-scheef): Er zijn een paar extreem lage uitschieters. Deze
trekken het gemiddelde omlaag. Hierdoor zakt het Gemiddelde tot onder de Mediaan.
WEEK 2: Normaalverdeling en het Betrouwbaarheidsinterval
1. Eigenschappen van een perfecte Normaalverdeling Als data wél een perfect
symmetrische klokvorm aannemen, kennen we vaste wiskundige percentages (de 68-95-99
regel):
● Ongeveer 68% van de waarnemingen ligt tussen min 1 en plus 1 standaarddeviatie van
het gemiddelde.
● Ongeveer 95% van de data bevindt zich op maximaal 2 standaarddeviaties afstand.
● Vrijwel alles (99,7%) valt binnen 3 standaarddeviaties.
2. Z-Scores Een Z-score drukt letterlijk uit: "Hoeveel standaarddeviaties ligt dit specifieke
datapunt verwijderd van het gemiddelde?". Met deze Z-score kun je vervolgens in een
statistische tabel (zoals Appendix A) exact de kans opzoeken dat iemand hoger of lager scoort
dan die waarde. Omdat de verdeling symmetrisch is, ligt er onder een Z-score van -0.38 precies
evenveel procent van de data als boven een Z-score van +0.38.
2