Shimara van den Elzen
INLEIDING STATISTIEK AANTEKENINGEN
HOORCOLLEGE 1
Beschrijvende statistiek/descriptive statistics: gaat over het beschrijven van de data,
vaak via samenvattende statistieken. We willen een waarde gebruiken om iets in de data te
beschrijven.
- Bijvoorbeeld:
o Een Spaanse vrouw is gemiddeld 1,63m lang.
o De rijkste 1% bezit 50% van de aandelen in bedrijven.
Bij inferentiële statistiek willen we een inferentie maken van iets naar iets anders. In de
statistiek willen we een inferentie (~ gevolgtrekking) maken van de steekproef (sample) naar
de populatie.
Er is niet één concept van data. Data komt in heel veel verschillende vormen en
meetniveaus. Het kan bijvoorbeeld zijn:
- Lengte (in cm).
- Jaarinkomen (in EUR).
- Roker vs. niet-roker.
- Huisdier (hond, kat, hamster, konijn).
- Steun voor Trump (van -5 tot +5).
Constructen: hetgeen waarin je geïnteresseerd bent, maar wat niet direct meetbaar is.
Operationaliseringen: wanneer je een construct operationaliseert, maak je hetgeen
meetbaar.
- In bovenstaand voorbeeld zijn ‘intelligence’ en ‘uni performance’ de constructen.
Maar je kunt deze twee niet direct meten. Wat eronder staat is hoe deze twee
constructen zijn geoperationaliseerd en dus meetbaar zijn gemaakt.
Discrete variabelen: kunnen slechts uit een beperkt aantal categorieën bestaan. Er bestaat
geen waarde tussen deze categorieën.
- Bijvoorbeeld: geslacht, oogkleur, moedertaal, aantal huisdieren, aantal
broers/zussen, hoe vaak op vakantie geweest, etc.
o Er bestaat geen waarde tussen 1 en 2 huisdieren. Je kunt geen 1,1939
huisdieren hebben.
, TiU: Inleiding statistiek (2020/2021)
Shimara van den Elzen
Continue variabelen: kunnen alle waarden tussen twee punten aannemen. Hier zijn alle
waarden aan te nemen.
- Bijvoorbeeld: inkomen, lengte, gewicht, snelheid.
o Je lengte kan in principe worden uitgedrukt als 1,75123461736823837423
meter. De waarde van een continue variabele (b.v. 1,75 m) is dus eigenlijk
een interval.
Meetniveaus van variabelen:
- De nominale schaal:
o Benoemde categorieën. Deze categorieën hebben dus een bepaald label.
o Er is geen kwantitatief onderscheid tussen categorieën. Er is geen sprake van
een volgorde.
o Geen nul!
o Bijvoorbeeld:
▪ Hond, kat, hamster (je kunt niet zeggen een hond is meer dan een
kat).
- De ordinale schaal:
o Gerangschikte categorieën.
o Geen gelijke afstand tussen de rangen.
o Geen nul!
o Bijvoorbeeld:
▪ 1e, 2e, 3e… van iets
- De intervalschaal:
o Bestaat uit even grote intervallen tussen waarden.
o Elke eenheid heeft dezelfde grootte.
o Maar: geen echt nulpunt! (willekeurig gekozen)
o Bijvoorbeeld:
▪ Temperatuur: van 21 – 26 en van 1°C – 6°C hebben beide hetzelfde
verschil.
- De ratio schaal:
o Bestaat uit even grote intervallen tussen waarden.
o Elke eenheid heeft dezelfde grootte.
o Maar nu hebben we wel een absolute nul.
o Bijvoorbeeld:
▪ Afstand: een afstand van nul betekent dat je fiets niet van positie
veranderd is.
Frequentie(s) van waarden: hoe vaak een bepaalde uitkomst is geobserveerd.
Frequentieverdelingstabel: een gestructureerde tabel waarin de uitkomsten staan die zijn
geobserveerd.
Zie college slides voor meer info/voorbeelden.
HOORCOLLEGE 2
Sampling:
- Steekproeftrekking is het proces waarbij n waarnemingen worden genomen uit een
populatie van grootte N.
o n = steekproef; N = populatie.
- Dit is een van de belangrijkste methoden in de gedrags- en sociale wetenschappen.
- Als de steekproeftrekking fout is, is de rest bullshit. GIGO-principe (garbage in,
garbage out): als je slechte methoden/modellen etc. in je onderzoek hebt, kan er
nooit iets goeds uitkomen.
- (Meer in latere colleges) voor nu: steekproef = deelverzameling van de populatie.
, TiU: Inleiding statistiek (2020/2021)
Shimara van den Elzen
Centrale tendens:
- Doel: wij willen de gegevens/data die we verzameld hebben beschrijven.
- Specifiek: we willen het centrum van de dataverdeling uitdrukken.
- Onthoud: denk aan data = verdeling.
Beschrijvende centrale waardes:
- De modus (Engels: mode):
o Eenvoudige definitie: de score (of categorie) met de hoogste frequentie. Dit is
dus de waarde die het meest voorkomt.
o Werkt voor alle schalen van data (denk aan nominale gegevens).
- Het gemiddelde (Engels: mean):
o Exacte definitie: de som van alle scores gedeeld door het aantal scores.
o Statistische notatie:
o Berekenen: (Som van alle scores) / N
- Outliers:
o Extreme waarden kunnen het gemiddelde beïnvloeden! De extreme waarden
worden vaak outliers/uitschieters genoemd.
o Deze problemen kunnen worden aangepakt:
▪ Mean trimming (niet in deze cursus)
▪ Een andere maat gebruiken!
- De mediaan (Engels: median):
o Vaak het midden genoemd.
o Exacte definitie: de mediaan deelt de verdeling in tweeën.
o De mediaan bepalen:
▪ Sorteer de data van laag naar hoog.
▪ Zoek de waarde die in het midden ligt.
o Verdelingen zonder “duidelijk” middenpunt:
▪ In dit geval nemen we de twee middelste waarden en berekenen we
het gemiddelde daarvan.
Variabiliteit:
- Doel: wij willen de data beschrijven.
- Specifiek: we willen uitdrukken hoeveel de scores in de data van elkaar verschillen.
- Ook wel de spreiding van de data genoemd (of het gebrek daaraan).
Hoe kunnen we data variabiliteit uitdrukken?
- De makkelijkste manier:
o We nemen de laagste waarde en de hoogste waarde. En vervolgens kijken
we wat daarvan de range/bereik is.
▪ Range = max – min.
- Een beetje meer genuanceerd:
o We kunnen berekenen hoeveel elke score van het (populatie) gemiddelde
verschilt.
▪ Verschilscore = score – (populatie)gemiddelde.
- Wat is problematisch?
o De procedure om de verschilscore te berekenen geeft ons een
afwijkingsscore (Eng. deviation) van het gemiddelde voor elke waarde.
▪ Deviation = X – μ.
, TiU: Inleiding statistiek (2020/2021)
Shimara van den Elzen
o Denk na over wat het gemiddelde eigenlijk is. Het is - per definitie - het
evenwichtspunt. Dus wanneer je alle afwijkingen (deviations) optelt kom je op
0 uit. Dit is niet heel handig. Hier is een trucje voor bedacht.
- Trucje: squaring the difference:
o Het x2 trucje: kwadrateer de afwijkingsscores.
▪ Verwijdert negatieve waarden. Dus het kan niet meer tot 0 optellen.
▪ “Straft” grotere waarden.
▪ Opmerking: verschillen worden ook gekwadrateerd Als we
verdubbelen, kwadrateren we x2. Bijvoorbeeld:
• 22 = 4.
• 42 = 16.
- We kunnen nu een meer betekenisvolle maat krijgen:
o Het gemiddelde van de gekwadrateerde afwijkingen noemen we de variantie
(Eng. variance). Variantie stappen:
1. Bereken alle verschilscores.
2. Neem het kwadraat van alle verschilscores.
3. Tel alle gekwadrateerde verschilscores op en deel door N.
o Formule:
- De standaardafwijking/standaarddeviatie (Engels: standard deviation):
o Een van de meest gebruikte statistieken voor variabiliteit standaard in de
meeste onderzoekspapers.
o Formule:
- Sum of squares:
o Een alternatieve benadering is om eerst de som van de gekwadrateerde
afwijkingen (SS) te berekenen.
o Eerst:
o Dan:
Denk terug aan populaties en steekproeven?
- Tot hier: de variabiliteitsstatistieken waren voor de populatie. Maar we hebben nooit
toegang tot de gehele populatie, dus maken we gebruik van steekproef.
- Maar het probleem bij steekproeven is dat ze gebiased zijn (d.w.z. we over- of
onderschatten de populatie-waarde):
o Hier betekent dit dat het de variabiliteit van de populatie onderschat.
o Wij kunnen hiervoor corrigeren.
o Dit is waar we de som van kwadraten nodig hebben.