Blok 1.3: Statistiek
Introduction to the practice of statistics
Hoofdstuk 1: Looking at Data – Distributions
Datasets bestaan uit:
• Case of unit: subjecten of objecten die door een dataset beschreven worden.
→ Kinderen, scholen of klassen
• Label: een variabele die wordt gebruikt om de cases van elkaar te onderscheiden. Dit
getal heeft geen waarde.
• Variabelen: kenmerken van een case. Deze kunnen verschillende waarden aannemen
en kun je rekenkundige activiteiten mee uitoefenen.
o Categorisch/kwalitatief: plaatst een case in een bepaalde groep of categorie.
Je kan hieraan alleen een waarde verbinden zonder betekenis.
→ Leeftijdsgroep (jong, gemiddeld, oud)
→ LVS Cito-score (A t/m D)
o Kwantitatief: variabelen waaraan een waarde kan worden verbonden me een
betekenis.
→ Leeftijd
→ IQ-score
Meetniveau ’s
• Categorische/kwalitatieve variabelen
o Nominaal
▪ Geen volgorde
▪ Geen meeteenheid
▪ Geen nulpunt
→ Sekse
o Ordinaal
▪ Wel volgorde
▪ Geen meeteenheid
▪ Geen nulpunt
→ SES (laag, gemiddeld, hoog)
• Kwantitatief
o Interval: gelijke afstanden tussen intervallen. Deling geeft geen juiste
uitkomst.
▪ Wel volgorde
▪ Wel meeteenheid
▪ Geen nulpunt
→ Temperatuur
o Ratio
▪ Wel volgorde
▪ Wel meeteenheid
▪ Wel vast nulpunt
→ Leeftijd
,Hoofdcomponenten dataset
• Wie? Welke cases zijn er en hoeveel?
• Wat? Wat zijn de variabelen?
• Waarom? Wat is het doel van het verzamelen van deze data.
Verdelingen van variabelen
• Nominaal/Ordinaal
o Pie chart
▪ Nadeel: je moet alle categorieën kennen
o Bar chart
▪ Voordeel: flexibeler
• Interval/Ratio
o Histogram
▪ Maak eerst een frequentietabel → De keuzen van klassen hierbij is erg
belangrijk.
▪ De extreme waarden vallen in de staart van het histogram.
o Stemplot/Steelblad
▪ Splitting: de steel wordt in twee verdeeld. → Minder bladeren.
▪ Trimming: wanneer een getal veel cijfers heeft kunnen de laatste
cijfers worden weggelaten. → Minder stammen.
▪ Back-to-back stemplot: elke zijde vertegenwoordigd een verdeling.
▪ Nadeel: werkt alleen bij kleine aantallen
o Timeplot: wanneer de variabelen over een bepaalde tijd zijn gemeten. Maar
een grafiek waar de tijd van meting horizontaal wordt weergegeven.
Distributies beoordelen
• De vorm
o Modes: de pieken van een verdeling.
o Unimodal: een verdeling met 1 duidelijke piek.
o Symmetrisch of scheef
• Het centrum: middelpunt van de verdeling
• De spreiding: breedte histogram
o Outlier: een individuele waarde die buiten het patroon van de verdeling valt.
Numerieke samenvattingen (kwantitatieve variabelen)
• Gemiddelde: X
o Nadeel: gevoelig voor extreme waarden. → Geen resistant measure/robust
measure.
o In een scheve verdeling ligt het gemiddelde verder in de staart als de
mediaan.
• Mediaan: M
o Het middelste getal. → De helft van de variabelen zijn kleiner en de helft van
de variabelen zijn groter.
o De mediaan is resistenter tegen extreme waarden dan het gemiddelde.
• Aantal observaties: n
,De spreiding van variabelen meten
• 1e kwartiel: 25e percentiel → 25% valt eronder. Dit is de mediaan van het stuk onder
de ‘echte’ mediaan. (Q1)
• Mediaan: 50e percentiel → 50% valt eronder (Q2)
• 3e kwartiel: 75e percentiel → 75% valt eronder. Dit is de mediaan van het stuk boven
de ‘echte’ mediaan. (Q3)
• Voordeel: Kwartielen zijn resistent voor outliers.
Five number summary
Gebruik deze bij redelijk scheve en ongelijke verdelingen.
• Minimum: laagste waarde
• Q1: 1e kwartiel
• M: mediaan
• Q3: 3e kwartiel
• Maximum: hoogste waarde
• IQR = Q3 – Q1
o Nadeel: Niet bruikbaar voor de beschrijving van een scheve verdeling.
Na de five number summary kan er een boxplot worden opgesteld.
• Non-modified boxplot: hierbij zijn geen outliers aanwezig.
o Whiskers zijn hier min en max
• Modified boxplot (zie hieronder): hierbij zijn outliers aanwezig.
o Whiskers zijn hier Q3 en Q1 ± IQR
• Side-by-side boxplot: meerdere boxplotten in 1 grafiek.
• SPSS boxplot
o Whiskers zijn hier de hoogste en laagste score die geen outliers zijn.
Whiskers Whiskers
, Variantie
Mate waarin waarden onderling verschillen.
Xi (score) x̄ (gem) Afwijking 𝒂𝒇𝒘𝒊𝒋𝒌𝒊𝒏𝒈𝟐
4 6 4 – 6 = -2 4
5 6 5 – 6 = -1 1
6 6 6–6=0 0
6 6 6–6=0 0
7 6 7–6=1 1
8 6 8–6=2 4
SOM = 0 SOM = 10
𝑠𝑜𝑚 𝑎𝑓𝑤𝑖𝑗𝑘𝑖𝑛𝑔2 10
𝑽𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆 (𝒔𝟐 ) = → 𝑉𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 = 6−1 = 2
aantal scores −1
• Niet dezelfde meeteenheid als origineel omdat het kwadraat is. → Standaard
deviatie is dit wel.
• n – 1 = degrees of freedom
𝑺𝒕𝒂𝒏𝒅𝒂𝒂𝒓𝒅 𝒅𝒆𝒗𝒊𝒂𝒕𝒊𝒆 (𝒔) = √𝑉𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 → 𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑒 = √2 = 1.41
• Meet de spreiding rondom het gemiddelde.
• Alleen bruikbaar als het gemiddelde een centrummaat is.
• Beïnvloedbaar door outliers.
• S = 0 als er geen spreiding is.
• Hoe groter S, hoe groter de spreiding.
• Gebruik dit voor redelijk symmetrische verdelingen
Lineaire transformatie
Numerieke samenvattingen van een beschrijving kunnen makkelijk omgezet worden in een
andere meeteenheid.
Formule: 𝑥𝑛𝑒𝑤 = 𝑎 + 𝑏𝑥
• x = originele waarde
Regel:
• Het vermenigvuldigen van elke waarneming met een positief getal b vermenigvuldigt
beide maten van centrum (gemiddelde en mediaan) en maten van spreiding
(interkwartielafstand en standaarddeviatie) met worden ook groter.
• Het toevoegen van hetzelfde getal a (positief of negatief) aan elke waarneming voegt
a toe aan de maten van het centrum en aan kwartielen en andere percentielen, maar
verandert niets aan de maten van spreiding.
Dichtheidscurve (density curves)
Gebruik bij kwantitatieve variabelen.
μ = het gemiddelde
σ = stadaard deviatie
• Een dichtheidscurve is eigenlijk een gladgestreken histogram.
• De curve is altijd boven de horizontale as.
• Het gebied onder een dichtheidscurve is altijd gelijk aan één.
o Mediaan is waar de helft van de oppervlakte aan elke kant ligt.
• Outliers worden niet meegenomen in de curve.
Introduction to the practice of statistics
Hoofdstuk 1: Looking at Data – Distributions
Datasets bestaan uit:
• Case of unit: subjecten of objecten die door een dataset beschreven worden.
→ Kinderen, scholen of klassen
• Label: een variabele die wordt gebruikt om de cases van elkaar te onderscheiden. Dit
getal heeft geen waarde.
• Variabelen: kenmerken van een case. Deze kunnen verschillende waarden aannemen
en kun je rekenkundige activiteiten mee uitoefenen.
o Categorisch/kwalitatief: plaatst een case in een bepaalde groep of categorie.
Je kan hieraan alleen een waarde verbinden zonder betekenis.
→ Leeftijdsgroep (jong, gemiddeld, oud)
→ LVS Cito-score (A t/m D)
o Kwantitatief: variabelen waaraan een waarde kan worden verbonden me een
betekenis.
→ Leeftijd
→ IQ-score
Meetniveau ’s
• Categorische/kwalitatieve variabelen
o Nominaal
▪ Geen volgorde
▪ Geen meeteenheid
▪ Geen nulpunt
→ Sekse
o Ordinaal
▪ Wel volgorde
▪ Geen meeteenheid
▪ Geen nulpunt
→ SES (laag, gemiddeld, hoog)
• Kwantitatief
o Interval: gelijke afstanden tussen intervallen. Deling geeft geen juiste
uitkomst.
▪ Wel volgorde
▪ Wel meeteenheid
▪ Geen nulpunt
→ Temperatuur
o Ratio
▪ Wel volgorde
▪ Wel meeteenheid
▪ Wel vast nulpunt
→ Leeftijd
,Hoofdcomponenten dataset
• Wie? Welke cases zijn er en hoeveel?
• Wat? Wat zijn de variabelen?
• Waarom? Wat is het doel van het verzamelen van deze data.
Verdelingen van variabelen
• Nominaal/Ordinaal
o Pie chart
▪ Nadeel: je moet alle categorieën kennen
o Bar chart
▪ Voordeel: flexibeler
• Interval/Ratio
o Histogram
▪ Maak eerst een frequentietabel → De keuzen van klassen hierbij is erg
belangrijk.
▪ De extreme waarden vallen in de staart van het histogram.
o Stemplot/Steelblad
▪ Splitting: de steel wordt in twee verdeeld. → Minder bladeren.
▪ Trimming: wanneer een getal veel cijfers heeft kunnen de laatste
cijfers worden weggelaten. → Minder stammen.
▪ Back-to-back stemplot: elke zijde vertegenwoordigd een verdeling.
▪ Nadeel: werkt alleen bij kleine aantallen
o Timeplot: wanneer de variabelen over een bepaalde tijd zijn gemeten. Maar
een grafiek waar de tijd van meting horizontaal wordt weergegeven.
Distributies beoordelen
• De vorm
o Modes: de pieken van een verdeling.
o Unimodal: een verdeling met 1 duidelijke piek.
o Symmetrisch of scheef
• Het centrum: middelpunt van de verdeling
• De spreiding: breedte histogram
o Outlier: een individuele waarde die buiten het patroon van de verdeling valt.
Numerieke samenvattingen (kwantitatieve variabelen)
• Gemiddelde: X
o Nadeel: gevoelig voor extreme waarden. → Geen resistant measure/robust
measure.
o In een scheve verdeling ligt het gemiddelde verder in de staart als de
mediaan.
• Mediaan: M
o Het middelste getal. → De helft van de variabelen zijn kleiner en de helft van
de variabelen zijn groter.
o De mediaan is resistenter tegen extreme waarden dan het gemiddelde.
• Aantal observaties: n
,De spreiding van variabelen meten
• 1e kwartiel: 25e percentiel → 25% valt eronder. Dit is de mediaan van het stuk onder
de ‘echte’ mediaan. (Q1)
• Mediaan: 50e percentiel → 50% valt eronder (Q2)
• 3e kwartiel: 75e percentiel → 75% valt eronder. Dit is de mediaan van het stuk boven
de ‘echte’ mediaan. (Q3)
• Voordeel: Kwartielen zijn resistent voor outliers.
Five number summary
Gebruik deze bij redelijk scheve en ongelijke verdelingen.
• Minimum: laagste waarde
• Q1: 1e kwartiel
• M: mediaan
• Q3: 3e kwartiel
• Maximum: hoogste waarde
• IQR = Q3 – Q1
o Nadeel: Niet bruikbaar voor de beschrijving van een scheve verdeling.
Na de five number summary kan er een boxplot worden opgesteld.
• Non-modified boxplot: hierbij zijn geen outliers aanwezig.
o Whiskers zijn hier min en max
• Modified boxplot (zie hieronder): hierbij zijn outliers aanwezig.
o Whiskers zijn hier Q3 en Q1 ± IQR
• Side-by-side boxplot: meerdere boxplotten in 1 grafiek.
• SPSS boxplot
o Whiskers zijn hier de hoogste en laagste score die geen outliers zijn.
Whiskers Whiskers
, Variantie
Mate waarin waarden onderling verschillen.
Xi (score) x̄ (gem) Afwijking 𝒂𝒇𝒘𝒊𝒋𝒌𝒊𝒏𝒈𝟐
4 6 4 – 6 = -2 4
5 6 5 – 6 = -1 1
6 6 6–6=0 0
6 6 6–6=0 0
7 6 7–6=1 1
8 6 8–6=2 4
SOM = 0 SOM = 10
𝑠𝑜𝑚 𝑎𝑓𝑤𝑖𝑗𝑘𝑖𝑛𝑔2 10
𝑽𝒂𝒓𝒊𝒂𝒏𝒕𝒊𝒆 (𝒔𝟐 ) = → 𝑉𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 = 6−1 = 2
aantal scores −1
• Niet dezelfde meeteenheid als origineel omdat het kwadraat is. → Standaard
deviatie is dit wel.
• n – 1 = degrees of freedom
𝑺𝒕𝒂𝒏𝒅𝒂𝒂𝒓𝒅 𝒅𝒆𝒗𝒊𝒂𝒕𝒊𝒆 (𝒔) = √𝑉𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 → 𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑒 = √2 = 1.41
• Meet de spreiding rondom het gemiddelde.
• Alleen bruikbaar als het gemiddelde een centrummaat is.
• Beïnvloedbaar door outliers.
• S = 0 als er geen spreiding is.
• Hoe groter S, hoe groter de spreiding.
• Gebruik dit voor redelijk symmetrische verdelingen
Lineaire transformatie
Numerieke samenvattingen van een beschrijving kunnen makkelijk omgezet worden in een
andere meeteenheid.
Formule: 𝑥𝑛𝑒𝑤 = 𝑎 + 𝑏𝑥
• x = originele waarde
Regel:
• Het vermenigvuldigen van elke waarneming met een positief getal b vermenigvuldigt
beide maten van centrum (gemiddelde en mediaan) en maten van spreiding
(interkwartielafstand en standaarddeviatie) met worden ook groter.
• Het toevoegen van hetzelfde getal a (positief of negatief) aan elke waarneming voegt
a toe aan de maten van het centrum en aan kwartielen en andere percentielen, maar
verandert niets aan de maten van spreiding.
Dichtheidscurve (density curves)
Gebruik bij kwantitatieve variabelen.
μ = het gemiddelde
σ = stadaard deviatie
• Een dichtheidscurve is eigenlijk een gladgestreken histogram.
• De curve is altijd boven de horizontale as.
• Het gebied onder een dichtheidscurve is altijd gelijk aan één.
o Mediaan is waar de helft van de oppervlakte aan elke kant ligt.
• Outliers worden niet meegenomen in de curve.