Meetniveaus van variabelen
Variabelen: categorisch en continue
1. Categorisch:
- Nominaal (geen volgorde, reason om naar sportschool te gaan, maakt niet uit welk
resultaat welk nummer krijgt)
- Ordinaal (Heeft een volgorde, helemaal mee eens tot helemaal mee oneens, maakt
wel uit welke categorie welk nummertje krijgt)
2. Continue
- Interval (afstand tussen opties is gelijk, verschil tussen graden is evenveel op
thermometer). Je hebt geen natuurlijk 0 punt.
- Ratio: Wel een natuurlijk 0 punt. Dus iemand van 30 is twee keer zo oud als iemand
van 15.
Grafische weergave variabelen
1. Categroisch
- Staafdiagram
- Cirkeldiagram
2. Continue
- Puntendiagram
- Stam en blad diagram → los van elkaar
- Histogram (staven aan elkaar) –
- Boxplot → midden van scores en hoeveel er boven en onder zit
Data beschrijven: eigenschappen
Centrale tendentie (locatie) → waar ligt het centrum van scores. Modus, mediaan en
gemiddelde. Mediaan is de middelste score, modus is de score die het meest voorkomt.
Gemiddelde is alles bij elkaar opgeteld delen door het aantal scores dat we hebben.
Spreiding (variantie) → hoe zit de spreiding eruit. Range, interkwartiel range, variante,
standaard devidatie
Vorm → scheefheid, steilheid.
Meetniveau variabele ZIE TABEL PPT.
Centrale tendentie: voorbeelden 1
- Vraag met antwoorden ja en nee → nominaal
- Vraag met oneens etc → ordinaal
- Immigranten maken het land slechter/beter: schaal van 0 tot 10. → interval
Data beschrijven: centrale tendentie
Drie maten voor spreiding:
Range = de hoogste score min de laagste score
Interkwartierrange (IQR) = de range waarin de middelste 50% van de scores ligt: het is de
afstand tussen het eerste kwartiel en het derde kwartiel. Q(u) - Q(l)
Standaarddeviatie (s) = het gemiddelde verschil (afstand) tussen de scores en het
gemiddelde
,Data beschrijving: spreiding
Maat voor Nominaal Ordinaal Interval Ratio
centrale
tendentie
KAN worden Geen Range IQR
gebruikt
MEEST Geen IQ
adequate om te
gebruiken
Spreiding: voorbeelden 2
Onderzoek naar gebruik van sociale media onder politici
Interpretatie: empirische regel
Op het moment dat je deze gegevens hebt,
Vorm:scheefheid
Inschatten of speiding van variabele is adequaat (voor het toepassen van statische
procedures)
Twee belangrijkste gevolgen van een scheve verdeling
- Gemiddelde wordt meegetrokken door extreme waarden
- Spreidingsmaten in sterke mate beïnvloed door extreme waarden
Links-scheef = gemiddelde ligt links van mediaan (is lager)
Symmetrisch = gemiddelde en mediaan zijn hetzelfde
Rechts-schreef = gemiddelde ligt rechts van mediaan (is hoger)
→ Vaststellen in programma; SKEW/SESKEW <2| KURT/SEKURT <2
Relatieve positie en kansen
Variabele aantal retweets is normaal verdeeld. u = 13,75; o = 6,135
Wat is de relatieve positie van de score 25 Re-tweets?
Z= (25-13,75)/6,135 - 1,83
Relatieve positie = als ik 60/40 heb, is dat in absolute zin 20. maar hoeveel
standaarddevidatie ligt dat hier af 60-40 eraf halen. hoeveel afwijkt is Z score.
De score 25 Re-tweets ligt 1,83 standaard devidaties rechts van het gemiddeld.
, Hoorcollege 2:
Variable aantal Re-tweets is normaal verdeeld. Wat is de relatieve positie van de score 25 re
tweets?
Standaarddeviatie = Z waarde
Z = (X - u)/o
o = standaardafwijking
X = retweets
u en o krijg je gegeven in deze vraag.
Van relatieve positie naar kans
- Normale (continue) verdeling: kans is een gebied onder een curve
P(c) = 0
P (c<x<d)
De Z-waardes staan achterin boek. gaan vanaf 0 en dus niet vanaf -.
Kansverdeling
Discreet (tellen, eindig)
- Binominaal (n=5) hoeveel keer gooi je kop en hoeveel keer munt → kun je tellen en
een verdeling van maken.
- Poisson
Continue (tellen, decimalen, oneindig)
- t-verdeling
- z-verdeling
- F-verdeling
- Chi2-verdeling
Random variabele
- Numerieke waarde gekoppeld aan (alle) uitkomsten van een experiment.
1. Discrete random variabele
- Gehele getallen (0,1,2,3 etc)
Steekproevenverdeling
1. Uitkomsten van alle mogelijke steekproeven van een specifieke omvang.
2. Theoretische kansverdeling = de kansverdeling zelf zie je eigenlijk nooit, is veel te
groot.
3. Basis voor schatten van populatie parameters en toetsen van hypothesen.
4. Random variabele is een steekproef statistiek.
- Steekproef gemiddelde, steekproef proportie, etc.
Wat is de gemiddelde tijdsduur van Pink Floyd in sec?
Populatie N = 191
Steekproefomvang: n = 35