Woensdag 5 februari: beschrijvende statistiek
1. Variabelen
Alles wat in een onderzoek gemeten, uitgevraagd of bijgehouden wordt zijn variabelen. Een
variabele is een eigenschap die verschillende waarden heeft voor verschillende individuen,
zoals leeftijd of geslacht.
Informatie wordt ook wel data genoemd.
Een dataset bevat informatie over alle participanten en alle variabelen.
Een dataset ziet er als volgt uit: op elke rij staat een participant, dus het aantal rijen staat
gelijk aan het aantal participanten in het onderzoek. Elke kolom staat voor een variabele.
Alle lessen maken gebruik van dit soort datasets, dus het is belangrijk dat je goed begrijpt
hoe je datasets afleest.
Vragen:
Een dataset kan nooit meer observaties dan variabelen bevatten.
Deze uitspraak is onjuist, er zijn geen limieten voor het aantal observaties en/of variabelen.
2. Populatie en steekproef
Met het begrip populatie bedoelen onderzoekers de complete groep mensen waarover ze
informatie willen krijgen.
Populaties kunnen verschillen in grootte:
● Als onderzoekers een uitspraak willen doen over eerstejaars diergeneeskunde
studenten, dan is de populatie van beperkt formaat.
● Als onderzoekers een uitspraak willen doen over alle inwoners van Nederland, dan is
de populatie extreem groot. Het is bijna onmogelijk om de gehele populatie te meten.
Daarom wordt uit de populatie een steekproef genomen. In een steekproef neem je een
kleine groep mensen die deel is van de gehele populatie. Op basis van de steekproef wordt
een uitspraak gedaan over de gehele populatie.
Je maakt een conclusie over de hele populatie op basis van de steekproef. Daarom is het
belangrijk dat de steekproef representatief is.
Representatief betekent dat de kenmerken uit de populatie - bijvoorbeeld de verdeling in
leeftijd en opleidingsniveau - terugkomen in de steekproef.
De verschillen tussen populatie en steekproef zijn erg belangrijk. Daarom duiden we
populatie en steekproef in de statistiek ook met andere symbolen aan.
,In de statistiek worden gegevens uit de populatie aangegeven met Griekse letters:
Voorbeeld:
● populatiegemiddelde: μ
● populatiestandaarddeviatie: σ
Gegevens uit de steekproef worden aangegeven met Romeinse letters:
Voorbeeld:
● steekproefgemiddelde: x
● steekproefstandaarddeviatie: s
Je kunt zeggen dat er twee vormen van statistiek zijn.
De eerste is wanneer de steekproef en populatie hetzelfde zijn. Kortom, wanneer je een
uitspraak wilt doen en daar ook alle informatie voor hebt. Bijvoorbeeld het antwoord op de
vraag: Hoeveel studenten zitten er in deze klas? Dit noemen we beschrijvende statistiek.
De tweede is wanneer de steekproef kleiner is dan de populatie. Je moet dan op basis van
een steekproef een uitspraak gaan doen over de rest van de populatie. Dat wordt ook wel
'inferentie' genoemd, en dus noemen we die tak inferentiële statistiek.
Vragen
Stel, je werkt voor een onderzoeksbureau en wilt weten hoeveel mensen bij Bedrijf X per
jaar gemiddeld uitgeven aan eten. Bedrijf X heeft 30.000 werknemers en je gebruikt data uit
een enquête die je hebt uitgezet onder 1000 werknemers. Dit resultaat levert de/het
steekproefgemiddelde op.
Je wilt weten hoe vaak mensen sporten dus vraag je 300 mensen naar hun sportgewoontes.
Dit is een voorbeeld van inferentiële statistiek. Gebaseerd op de antwoorden van 300
mensen ga je een veel meer generieke conclusie trekken.
Peter heeft een gehele populatie ondervraagd. Hij wil graag weten wat het verschil is tussen
de standaarddeviatie en gemiddelde van zowel de gehele populatie als die van een kleine
steekproef genomen uit diezelfde populatie.
De resultaten: μ=130.24, x =129.26, σ=2.34, s=2.36.
Welke symbolen worden gebruikt om een steekproef te omschrijven? Kies het best
passende antwoord. x en s
s Dit symbool wordt gebruikt voor … de steekproefstandaarddeviatie.
, 3. Meetniveaus
Stel dat je 12 emmers met verf hebt in de volgende kleuren: 6 rood, 4 blauw, 2 groen.
Wat is de gemiddelde kleur? Kan niet berekend worden
Je kunt hier nu niet stellen dat er een gemiddelde kleur is. Maar waarom niet?
Dit komt omdat er verschillende meetniveaus zijn. Het meetniveau van je variabele bepaalt
welke statistische tools je wel en niet kunt gebruiken. Om daar de juiste keuze in te maken,
moet je het meetniveau van je variabelen weten. In deze les leer je vier verschillende
meetniveaus kennen.
Laten we eerst even kijken naar de twee kenmerken van een variabele:
1. Een variabele heeft numerieke waarden
2. Een variabele varieert van persoon tot persoon
Wanneer we het meetniveau van een variabele bepalen, kijken we naar de numerieke
waarden van deze variabele.
Je kunt alle variabelen verdelen in twee soorten:
● Categorische variabelen (categorical in het Engels): De waarden geven
groepen/categorieën aan.
● Kwantitatieve variabelen (quantitative in het Engels): De waarden geven een
kwantiteit aan (een hoeveelheid/grootte).
Binnen de categorische variabelen onderscheiden we weer twee niveaus:
● Nominaal
● Ordinaal
Nominale variabelen zijn een kwalitatieve classificatie zonder ordening.
Fruit is daar een voorbeeld van: 1 = appel, 2 = banaan, 3 = peer.
Dit fruit heeft geen natuurlijke ordening. Het fruit 2 (= banaan) is niet meer of groter of beter
dan het fruit 1 (= appel).
Stel, je verkoopt ijsjes aan kinderen in de buurt voor wat extra inkomen. Je houdt voor elke
dag bij welke smaak het meest populair was én hoeveel ijsjes je verkocht hebt.
Vraag 1: Is de variabele "de meest populaire smaak" gemeten op nominaal meetniveau?
Vraag 2: Is de variabele "aantal verkochte ijsjes" gemeten op nominaal meetniveau?
Vraag 1= ja en vraag 2= nee. "De meest populaire smaak" is inderdaad gemeten op
nominaal meetniveau. De variabele "aantal verkochte ijsjes" niet. Deze neemt numerieke
waarden aan.Variabelen gemeten op ordinaal meetniveau zijn óf een kwalitatieve óf een
kwantitatieve classificatie met een logische ordening.
Voorbeelden zijn:
1. Het KNMI weeralarm: 0 = geen, 1 = code geel, 2 = code oranje en 3 = code rood. In
dit geval is er een natuurlijke ordening van de vier waarden/categorieën.
2. Het uitreiken van de Oscars: 1 = de beste film, 2 = de tweede beste film, 3 = de
derde beste film. De numerieke waarden zijn een natuurlijke ordening, maar
, betekenen verder niks. We weten namelijk niet hoeveel de eerste film beter was dan
de tweede.
Stel, je verkoopt ijs in de volgende drie smaken: banaan, aardbei en chocolade.
Deze smaken worden gemeten op een nominale schaal.
Je verkoopt deze ijsjes aan kinderen, volwassenen en ouderen. Deze leeftijdsgroepen
worden gemeten op een ordinale schaal.
Je kunt de smaken in verschillende groepen indelen, maar niet op een logische volgorde
zetten. De ijssmaken worden dus gemeten op een nominale schaal.
De leeftijdsgroepen hebben wel een natuurlijke indeling: van jong tot oud. Daarom worden
de leeftijdscategorieën gemeten op een ordinale schaal.
Kwantitatieve variabelen hebben een natuurlijke ordening. De verschillen tussen
verschillende waarden zijn meetbaar en relevant: gelijke verschillen tussen waarden hebben
dezelfde betekenis.
Een voorbeeld van een kwantitatieve variabele is de score op de CITO toets in groep 8. Een
score van 537 is beter (meer kennis) dan een score van 536. En het verschil tussen een
score van 530 en 532 is even groot als dat tussen 532 en 534. Het verschil van 2 punten
geeft hetzelfde verschil in kennis aan.
Met de waarden van kwantitatieve variabelen kun je gewoon rekenen. Je kunt er
bijvoorbeeld een gemiddelde mee uitrekenen.
Een marathonrenner eindigt twee minuten na de nummer één. Zijn tijd wordt genoteerd als
+2 min. De genoteerde looptijd wordt hier gemeten op een kwantitatief niveau.
De verschillen tussen verschillende waarden zijn meetbaar en relevant: gelijke verschillen
tussen waarden hebben dezelfde betekenis. Dit wordt gemeten op kwantitatief niveau (niet
categorisch).
De meetbare uitkomsten van een onderzoek noem je variabelen.
Variabelen hebben verschillende meetniveaus:
● Categorisch, waaronder nominaal en ordinaal.
● Kwantitatief
Na een reorganisatie van de Nationale Politie in 1993 zijn de medewerkers ingedeeld in
onder andere de volgende rangen:
Hoofdcommissaris, Commissaris-hoofdinspecteur, Inspecteur, Brigadier, Hoofdagent, Agent
en Aspirant
Wat is het meetniveau van deze rangschikking?
Ordinaal, de data is categorisch en kan worden geordend.
De politieke partijen bij een verkiezing is een categorisch variabele. We kunnen de politieke
partijen alleen in een groep/categorie indelen.
1. Variabelen
Alles wat in een onderzoek gemeten, uitgevraagd of bijgehouden wordt zijn variabelen. Een
variabele is een eigenschap die verschillende waarden heeft voor verschillende individuen,
zoals leeftijd of geslacht.
Informatie wordt ook wel data genoemd.
Een dataset bevat informatie over alle participanten en alle variabelen.
Een dataset ziet er als volgt uit: op elke rij staat een participant, dus het aantal rijen staat
gelijk aan het aantal participanten in het onderzoek. Elke kolom staat voor een variabele.
Alle lessen maken gebruik van dit soort datasets, dus het is belangrijk dat je goed begrijpt
hoe je datasets afleest.
Vragen:
Een dataset kan nooit meer observaties dan variabelen bevatten.
Deze uitspraak is onjuist, er zijn geen limieten voor het aantal observaties en/of variabelen.
2. Populatie en steekproef
Met het begrip populatie bedoelen onderzoekers de complete groep mensen waarover ze
informatie willen krijgen.
Populaties kunnen verschillen in grootte:
● Als onderzoekers een uitspraak willen doen over eerstejaars diergeneeskunde
studenten, dan is de populatie van beperkt formaat.
● Als onderzoekers een uitspraak willen doen over alle inwoners van Nederland, dan is
de populatie extreem groot. Het is bijna onmogelijk om de gehele populatie te meten.
Daarom wordt uit de populatie een steekproef genomen. In een steekproef neem je een
kleine groep mensen die deel is van de gehele populatie. Op basis van de steekproef wordt
een uitspraak gedaan over de gehele populatie.
Je maakt een conclusie over de hele populatie op basis van de steekproef. Daarom is het
belangrijk dat de steekproef representatief is.
Representatief betekent dat de kenmerken uit de populatie - bijvoorbeeld de verdeling in
leeftijd en opleidingsniveau - terugkomen in de steekproef.
De verschillen tussen populatie en steekproef zijn erg belangrijk. Daarom duiden we
populatie en steekproef in de statistiek ook met andere symbolen aan.
,In de statistiek worden gegevens uit de populatie aangegeven met Griekse letters:
Voorbeeld:
● populatiegemiddelde: μ
● populatiestandaarddeviatie: σ
Gegevens uit de steekproef worden aangegeven met Romeinse letters:
Voorbeeld:
● steekproefgemiddelde: x
● steekproefstandaarddeviatie: s
Je kunt zeggen dat er twee vormen van statistiek zijn.
De eerste is wanneer de steekproef en populatie hetzelfde zijn. Kortom, wanneer je een
uitspraak wilt doen en daar ook alle informatie voor hebt. Bijvoorbeeld het antwoord op de
vraag: Hoeveel studenten zitten er in deze klas? Dit noemen we beschrijvende statistiek.
De tweede is wanneer de steekproef kleiner is dan de populatie. Je moet dan op basis van
een steekproef een uitspraak gaan doen over de rest van de populatie. Dat wordt ook wel
'inferentie' genoemd, en dus noemen we die tak inferentiële statistiek.
Vragen
Stel, je werkt voor een onderzoeksbureau en wilt weten hoeveel mensen bij Bedrijf X per
jaar gemiddeld uitgeven aan eten. Bedrijf X heeft 30.000 werknemers en je gebruikt data uit
een enquête die je hebt uitgezet onder 1000 werknemers. Dit resultaat levert de/het
steekproefgemiddelde op.
Je wilt weten hoe vaak mensen sporten dus vraag je 300 mensen naar hun sportgewoontes.
Dit is een voorbeeld van inferentiële statistiek. Gebaseerd op de antwoorden van 300
mensen ga je een veel meer generieke conclusie trekken.
Peter heeft een gehele populatie ondervraagd. Hij wil graag weten wat het verschil is tussen
de standaarddeviatie en gemiddelde van zowel de gehele populatie als die van een kleine
steekproef genomen uit diezelfde populatie.
De resultaten: μ=130.24, x =129.26, σ=2.34, s=2.36.
Welke symbolen worden gebruikt om een steekproef te omschrijven? Kies het best
passende antwoord. x en s
s Dit symbool wordt gebruikt voor … de steekproefstandaarddeviatie.
, 3. Meetniveaus
Stel dat je 12 emmers met verf hebt in de volgende kleuren: 6 rood, 4 blauw, 2 groen.
Wat is de gemiddelde kleur? Kan niet berekend worden
Je kunt hier nu niet stellen dat er een gemiddelde kleur is. Maar waarom niet?
Dit komt omdat er verschillende meetniveaus zijn. Het meetniveau van je variabele bepaalt
welke statistische tools je wel en niet kunt gebruiken. Om daar de juiste keuze in te maken,
moet je het meetniveau van je variabelen weten. In deze les leer je vier verschillende
meetniveaus kennen.
Laten we eerst even kijken naar de twee kenmerken van een variabele:
1. Een variabele heeft numerieke waarden
2. Een variabele varieert van persoon tot persoon
Wanneer we het meetniveau van een variabele bepalen, kijken we naar de numerieke
waarden van deze variabele.
Je kunt alle variabelen verdelen in twee soorten:
● Categorische variabelen (categorical in het Engels): De waarden geven
groepen/categorieën aan.
● Kwantitatieve variabelen (quantitative in het Engels): De waarden geven een
kwantiteit aan (een hoeveelheid/grootte).
Binnen de categorische variabelen onderscheiden we weer twee niveaus:
● Nominaal
● Ordinaal
Nominale variabelen zijn een kwalitatieve classificatie zonder ordening.
Fruit is daar een voorbeeld van: 1 = appel, 2 = banaan, 3 = peer.
Dit fruit heeft geen natuurlijke ordening. Het fruit 2 (= banaan) is niet meer of groter of beter
dan het fruit 1 (= appel).
Stel, je verkoopt ijsjes aan kinderen in de buurt voor wat extra inkomen. Je houdt voor elke
dag bij welke smaak het meest populair was én hoeveel ijsjes je verkocht hebt.
Vraag 1: Is de variabele "de meest populaire smaak" gemeten op nominaal meetniveau?
Vraag 2: Is de variabele "aantal verkochte ijsjes" gemeten op nominaal meetniveau?
Vraag 1= ja en vraag 2= nee. "De meest populaire smaak" is inderdaad gemeten op
nominaal meetniveau. De variabele "aantal verkochte ijsjes" niet. Deze neemt numerieke
waarden aan.Variabelen gemeten op ordinaal meetniveau zijn óf een kwalitatieve óf een
kwantitatieve classificatie met een logische ordening.
Voorbeelden zijn:
1. Het KNMI weeralarm: 0 = geen, 1 = code geel, 2 = code oranje en 3 = code rood. In
dit geval is er een natuurlijke ordening van de vier waarden/categorieën.
2. Het uitreiken van de Oscars: 1 = de beste film, 2 = de tweede beste film, 3 = de
derde beste film. De numerieke waarden zijn een natuurlijke ordening, maar
, betekenen verder niks. We weten namelijk niet hoeveel de eerste film beter was dan
de tweede.
Stel, je verkoopt ijs in de volgende drie smaken: banaan, aardbei en chocolade.
Deze smaken worden gemeten op een nominale schaal.
Je verkoopt deze ijsjes aan kinderen, volwassenen en ouderen. Deze leeftijdsgroepen
worden gemeten op een ordinale schaal.
Je kunt de smaken in verschillende groepen indelen, maar niet op een logische volgorde
zetten. De ijssmaken worden dus gemeten op een nominale schaal.
De leeftijdsgroepen hebben wel een natuurlijke indeling: van jong tot oud. Daarom worden
de leeftijdscategorieën gemeten op een ordinale schaal.
Kwantitatieve variabelen hebben een natuurlijke ordening. De verschillen tussen
verschillende waarden zijn meetbaar en relevant: gelijke verschillen tussen waarden hebben
dezelfde betekenis.
Een voorbeeld van een kwantitatieve variabele is de score op de CITO toets in groep 8. Een
score van 537 is beter (meer kennis) dan een score van 536. En het verschil tussen een
score van 530 en 532 is even groot als dat tussen 532 en 534. Het verschil van 2 punten
geeft hetzelfde verschil in kennis aan.
Met de waarden van kwantitatieve variabelen kun je gewoon rekenen. Je kunt er
bijvoorbeeld een gemiddelde mee uitrekenen.
Een marathonrenner eindigt twee minuten na de nummer één. Zijn tijd wordt genoteerd als
+2 min. De genoteerde looptijd wordt hier gemeten op een kwantitatief niveau.
De verschillen tussen verschillende waarden zijn meetbaar en relevant: gelijke verschillen
tussen waarden hebben dezelfde betekenis. Dit wordt gemeten op kwantitatief niveau (niet
categorisch).
De meetbare uitkomsten van een onderzoek noem je variabelen.
Variabelen hebben verschillende meetniveaus:
● Categorisch, waaronder nominaal en ordinaal.
● Kwantitatief
Na een reorganisatie van de Nationale Politie in 1993 zijn de medewerkers ingedeeld in
onder andere de volgende rangen:
Hoofdcommissaris, Commissaris-hoofdinspecteur, Inspecteur, Brigadier, Hoofdagent, Agent
en Aspirant
Wat is het meetniveau van deze rangschikking?
Ordinaal, de data is categorisch en kan worden geordend.
De politieke partijen bij een verkiezing is een categorisch variabele. We kunnen de politieke
partijen alleen in een groep/categorie indelen.