Week 1 - Wat is statistiek
- Meetniveau’s
- Centrale tendentie
Vanaf pagina 2
Week 2 - Scheefheid
- Standaarddeviatie en variantie
- Normaalverdeling
Vanaf pagina 6
- Z-scores
- Betrouwbaarheidsinterval
Week 3 - Samenhang
- Significantie
- Associatiematen
Vanaf pagina
- Spearman’s rho
12 - Pearson’s r
Week 4 - Inferentiële statistiek
- Steekproef en populatie
- Steekproevenverdeling
Vanaf pagina
15
Week 5 - Hypothesetoetsing
- Soorten toetsen
- Significantieniveau
Vanaf pagina
- Eenzijdig en tweezijdig
18 - Degrees of freedom
- t(obtained) en t(critical)
Week 6 - Chi² -toets
- Stappenplan + voorbeeld
Vanaf pagina
25
Week 7 - Significantietoets voor Spearman’s rho & Pearsons r
- Homoscedasticity
- Stappenplan + voorbeeld
Vanaf pagina
30
Week 1
1
,Wat is Statistiek?
Statistiek is de wetenschap die zich bezighoudt met het omzetten van ruwe data naar
bruikbare informatie. Dit proces bestaat uit vier kernfasen:
1. Verzamelen: Data vergaren (bijv. enquêtes).
2. Bewerken: Opschonen en ordenen van de data.
3. Interpreteren: Wat betekenen de cijfers eigenlijk?
4. Presenteren: Visualiseren via tabellen of grafieken.
Is statistische informatie betrouwbaar?
Om te bepalen of je een statistische uitspraak kunt geloven, moet je kijken naar twee
hoofdfasen: de verzameling en de verwerking.
1. De Dataverzameling (De Basis)
Voordat je naar de cijfers kijkt, moet je weten waar ze vandaan komen. Een fout in de
basis maakt de conclusie waardeloos.
- Definities & Afbakening: Wat wordt er precies gemeten? (Bijv. "werkloosheid":
telt iemand die 1 uur per week werkt mee?)
- Onderzoekseenheden: Wie of wat is er onderzocht? Is de groep representatief
voor de hele populatie?
- Vertekening (Bias): Is de steekproef eerlijk gekozen, of is er sprake van sturing?
- Meetfouten (Measurement Error): Zijn de instrumenten of vragenlijsten
nauwkeurig genoeg?
2. Analyse, Interpretatie & Presentatie
Zelfs met goede data kun je een verkeerd verhaal vertellen door de manier waarop je het
presenteert.
- Keuze van maat/toets: Gebruik je het gemiddelde (gevoelig voor uitschieters) of
de mediaan? Welke statistische toets past bij de data?
- Conclusievorming: Welke betekenis geef je aan een getal? Correlatie
(samenhang) is bijvoorbeeld niet hetzelfde als causaliteit (oorzaak-gevolg).
- Visualisatie: Worden grafieken eerlijk weergegeven, of worden assen
gemanipuleerd om een effect groter te laten lijken?
De Drie Hoofdvormen
Je kunt statistiek grofweg opdelen in drie specialisaties, afhankelijk van wat je met de
data wilt bereiken:
A. Beschrijvende Statistiek (Descriptive)
- Doel: Het overzichtelijk samenvatten van een specifieke groep (de steekproef).
- Focus: "Wat zien we nu?"
- Kenmerken: Maakt gebruik van gemiddelden, percentages, grafieken (zoals
cirkeldiagrammen) en spreidingsmaten.
- Voorbeeld: Het berekenen van het gemiddelde cijfer van jouw klas voor een toets.
B. Verklarende Statistiek (Explanatory)
- Doel: Het zoeken naar relaties tussen verschillende variabelen.
- Focus: "Is er een verband?"
- Kenmerken: Kijkt naar de samenhang (correlatie) of invloed van de ene variabele
op de andere.
- Voorbeeld: Onderzoeken of er een verband is tussen het aantal uren dat studenten
studeren en de hoogte van hun cijfer.
C. Inferentiële Statistiek (Inductive)
- Doel: Uitspraken doen over een hele populatie op basis van een kleine groep (de
steekproef).
- Focus: "Geldt dit voor iedereen?"
- Kenmerken: Gebruikt kansberekening om te bepalen of resultaten toevallig zijn
of representatief voor het geheel (generaliseren).
- Voorbeeld: Op basis van een peiling onder 1.000 stemmers voorspellen wie de
landelijke verkiezingen gaat winnen.
2
, Meetniveaus (Levels of Measurement)
Het meetniveau zegt iets over de informatiewaarde van je gegevens. Hoe hoger het
niveau, hoe meer berekeningen je kunt doen.
Meetniveau Kenmerk Voorbeelden
Nominaal Categorieën: Alleen naamgeven en Geslacht, kleur, postcode, ja/nee (binair).
groeperen. Geen logische volgorde.
Ordinaal Rangorde: Er is een logische volgorde, Opleidingsniveau (HBO/WO), tevredenheid
maar de afstanden tussen stappen zijn (laag/midden/hoog).
niet meetbaar/gelijk.
Interval Numeriek: Gelijke stappen tussen Temperatuur in °C, IQ-score, jaartallen.
waarden, maar geen natuurlijk nulpunt
(0 betekent niet 'niets').
Ratio Numeriek + Nulpunt: Hoogste niveau. Lengte, gewicht, inkomen, leeftijd.
Er is een absoluut nulpunt (0 =
afwezigheid van de variabele).
Kwalitatief vs. Kwantitatief
- Kwalitatief (Categorisch): Nominaal & Ordinaal. Je deelt mensen of objecten in
groepen in.
- Kwantitatief (Numeriek): Interval & Ratio. Je werkt met echte getallen en
hoeveelheden.
Introductie: De drie Centrummaten
Er zijn drie bekende manieren om het centrum van een verdeling te beschrijven. Welke je
kiest, hangt af van het meetniveau van je variabele en je onderzoeksdoel.
1. Mode (Modus): De meest voorkomende score.
2. Median (Mediaan): De middelste score (splitst de groep in twee gelijke helften).
3. Mean (Gemiddelde): Het rekenkundig gemiddelde
The Mode (De Modus)
De modus is simpelweg de waarde of categorie die het vaakst voorkomt in je data.
Kenmerken van de Modus:
- Meetniveau: Het is de enige centrummaat die je mag gebruiken voor Nominale
variabelen (zoals religie of geslacht).
- Eenvoud: Je hoeft niet te rekenen, alleen te tellen.
Beperkingen:
- Geen modus: Soms komt elke score precies één keer voor; dan is er geen modus.
- Te veel modi: Als veel scores even vaak voorkomen (bijv. zes verschillende modi
in een klas, zie Tabel 3.2), verliest het getal zijn betekenis.
- Niet centraal: Bij Ordinaal of Interval-Ratio niveau kan de modus aan de uiterste
rand van de verdeling liggen. Als in een klas bijna iedereen een 5 haalt, maar vijf
mensen halen een 10, dan is 10 de modus, ook al is dat niet "typisch" voor de hele
groep (zie Tabel 3.3).
The Median (De Mediaan)
De mediaan (Md) is de score van de middelste casus. Het is het punt dat de verdeling
precies in twee gelijke helften snijdt: 50% van de mensen scoort hoger, 50% scoort
lager.
Hoe vind je de Mediaan?
Stap 1: Zet alle scores in volgorde (van laag naar hoog of hoog naar laag). Dit is
essentieel!
Stap 2: Zoek de middelste positie.
- Bij een oneven aantal (N is oneven):
Er is precies één middelste casus. Bij 7 studenten is de 4e student de mediaan (3
erboven, 3 eronder).
- Bij een even aantal (N is even):
Er zijn twee middelste casussen. De mediaan is het gemiddelde van die twee scores.
o Voorbeeld: De middelste scores zijn een 7 en een 5.
3
, o Berekening: (7 + 5) / 2 = 6. De mediaan is 6.
De Mediaan bij Grote Groepen
De tekst geeft een handige "One Step at a Time" methode om de middelste casus te
vinden zonder te hoeven gokken:
The Mean (Het Gemiddelde)
De Mean is de meest gebruikte centrummaat. Het is het rekenkundig gemiddelde: de
som van alle scores gedeeld door het aantal scores.
De Formule
De Ultieme Keuzegids
(Beslisboom)
Wanneer kies je wat? De tekst geeft twee belangrijke tabellen (3.12 en 3.13)
Criterium 1: Meetniveau
Niveau Modu Mediaa Gemiddeld
s n e
Nominaal JA Nee Nee
Ordinaal Ja JA Soms (Ja?)
Interval- Ja Ja JA
Ratio Waarom Spreiding Belangrijk Is:
De Ambulance-casus
Het voorbeeld van de ambulances in de tekst is briljant om het nut te begrijpen:
- Service A: Gemiddelde responstijd = 7,4 min.
- Service B: Gemiddelde responstijd = 7,6 min.
Op basis van alleen het gemiddelde lijken ze bijna hetzelfde. Maar kijk je naar de
spreiding (Figuur 4.1), dan zie je een enorm verschil:
- Service A is heel constant. De meeste ritten zitten dicht bij de 7-8 minuten. De
grafiek is hoog en smal (weinig spreiding).
- Service B is onvoorspelbaar. Soms zijn ze er in 2 minuten, soms pas na 14
minuten. De grafiek is plat en breed (veel spreiding).
Conclusie: Als directeur kies je Service A. Je wilt betrouwbaarheid, niet een service die
"gemiddeld" op tijd is maar soms fataal te laat komt. Spreiding vertelt je dus iets
over de betrouwbaarheid van je gemiddelde.
Visuele Vuistregel
Denk bij spreiding altijd aan de vorm van de grafiek:
- Weinig spreiding = Een hoge piek. Scores zijn
"geclusterd" rond het gemiddelde. De waarden van je
spreidingsmaten zullen laag zijn.
4
, - Veel spreiding = Een platte curve. Scores zijn verspreid over een groot bereik.
De waarden van je spreidingsmaten zullen hoog zijn.
The Range (R) - Het Bereik
De Range is de simpelste spreidingsmaat die er is. Het is simpelweg het verschil tussen
de hoogste en de laagste score.
- Formule: R = Hoogste score - Laagste score
- Voordeel: Snel en makkelijk te berekenen. Geeft direct een idee van de uitersten.
- Nadeel: Het is zeer onbetrouwbaar omdat het op slechts twee scores is
gebaseerd. Eén extreme uitschieter (outlier) kan de Range enorm opblazen, terwijl
de rest van de scores misschien heel dicht bij elkaar ligt. Daarnaast zegt het niets
over hoe de scores tussen de uitersten verdeeld zijn.
The Interquartile Range (Q) - Interkwartielafstand
Om de invloed van extreme uitschieters te beperken, kijken we vaak naar de Q. Deze
maat kijkt alleen naar de "middelste 50%" van de verdeling.
- Het concept: Je verdeelt je data in vier gelijke kwarten (quartiles).
o Q1: De grens van de onderste 25%.
o Q3: De grens van de onderste 75% (oftewel: de top 25%).
- Formule: Q = Q3 - Q1
5