Kennisclip 0.1 – Waar gaat deze cursus over?
Wat is statistiek?
• Methoden om gegevens (data) te verzamelen, bewerken, interpreteren en
presenteren
• Ultieme doel: door data kennis vergaren over de wereld om ons heen
• Beschrijvende: samenvatting van de verkregen data
o Hoe zien de data eruit?
• Inferentiële: uitspraken en voorspellingen doen over de hele populatie op basis van
de verkregen data (steekproef)
o Bekijkt ook mogelijke verstorende variabelen
• Significantie: is iets een toevallig afwijking of is er een significant verschil?
• Onafhankelijke variabele = oorzaak & afhankelijke variabele = gevolg
Kennisclip 1.1 – Statistische concepten: variabelen, cases en observaties
Hoe zien kwantitatieve data eruit?
• Variabelen: kenmerken van iets of iemand
o Leeftijd, aantal goals, haarkleur
• Cases: dingen of personen
o Kunnen individuen, teams, landen, bedrijven etc. zijn
• Elk kenmerk van een case noemen we een variabele
o Belangrijkste criterium: het kenmerk moet variëren
• Is er geen variatie in een bepaald kenmerk in de steekproef?
o Dan is het een constante
Verschillende meetniveaus
Categoriale variabelen
• Nominaal
o Nominale variabele bestaat uit verschillende categorieën, die van elkaar
verschillen
o Geen rangorde – een categorie is niet ‘beter’ of ‘slechter’ dan de ander
• Ordinaal
o Er is verschil in de categorieën van de variabele
o Er is een rangorde
Kwantitatieve variabelen (categorieën met numerieke waarden)
• Interval
o Verschillende categorieën en rangorde
o Ook vergelijkbare intervallen tussen de categorieën
§ Voorbeeld is leeftijd
• Ratio
o Vergelijkbaar met interval
§ Verschillende categorieën en rangorde
§ Ook vergelijkbare intervallen tussen de categorieën
o Ook een nulpunt met betekenis
• Discrete en continue variabelen
o Discreet: categorieën kunnen set aparte nummers vormen
o Continue: het is mogelijk dat waarden een interval vormen
• Belangrijk voor de methoden om data te analyseren
VU Amsterdam | Premaster Bestuurskunde | Beschrijvende en Inferentiële Statistiek
,Kennisclip 2.1 – Beschrijven van data: tabellen en grafieken
Algemeen
• Datamatrix is bron van elke statistische studie
o Overzicht van de cases en variabelen
§ Cases in rijen
§ Variabelen in kolommen
§ Data in de tabel zijn observaties
• Tabellen en grafieken gebruikt om data uit matrix samen te vatten en te presenteren
2.1.1 Tabellen
• Frequentietabel: laat zien hoe waarden van een variabele verdeeld zijn
o Lijst met mogelijke waarden + aantal observaties
• Relatieve frequentie: aantal in %
o Gangbaar bij categorische variabelen
o Bij kwantitatieve variabelen vaak ordinale categorieën gemaakt
§ Voorbeeld: < 60 kg, 60-70 kg, 70-80 kg, > 80 kg
• Cumulatieve percentages: percentages in elke categorie bij elkaar opgeteld
2.1.2 Grafieken
• Frequentietabel vaak gebruikt om informatieve grafieken te maken
• Categoriale (= nominale / ordinale) variabelen
o Cirkeldiagram: taartpunten met % van observaties
§ Voordeel: data snel te interpreteren, % zichtbaar
§ Nadeel: exacte % niet snel te lezen
o Staafdiagram: hoogte van de staven geeft observaties aan
§ Voordeel: aantal per observatie makkelijker te zien
§ Gunstig bij veel categorieën
• Kwantitatieve (= interval / ratio) variabelen
o Puntplot: gebruikt voor weergave kwantitatieve data
§ Gunstig bij beperkt aantal observaties
o Histogram: staven om aantal frequenties van variabelen te laten zien
§ Gunstig bij veel observaties
§ Verschil met staafdiagram: de staven raken elkaar aan in histogram
§ Representeert een onderliggende continue schaal
o Vorm van het histogram
§ Vaak klokvormig, een top en bij benadering symmetrisch
§ Unimodaal
• Normaal verdeeld: klokvormig
• Linksscheef: langere staart links (eindigt met piek)
• Rechtsscheef: langere staart rechts (begint met piek)
§ Bimodaal
• Twee toppen: als meerdere doelgroepen bekeken worden
Kennisclip 2.2 – Maten van centraliteit: modus, mediaan en mean
• Modus: de meest voorkomende uitkomst
o Vaak bij nominale of ordinale variabelen
o Je kunt meer dan één modus hebben (bimodale verdeling)
• Mediaan: middelste waarde van je observaties
o Observaties geordend van klein naar groot
o Bij even aantal gemiddelde van middelste twee waarden
o Mediaan verdeelt verdeling in twee gelijke delen
• Gemiddelde: som van alle waarden / aantal observaties (= 𝑥 )
VU Amsterdam | Premaster Bestuurskunde | Beschrijvende en Inferentiële Statistiek
, Kennisclip 2.3 – De spreiding van een verdeling: maten van variantie
2.3.1 Bereik, interkwartielafstand en boxplot
• Twee maten van variabiliteit: bereik en interkwartielafstand
• Bereik
o Meest simpele maat van variabiliteit
o Verschil tussen hoogste en laagste waarde
o Geeft vaak geen goede indruk van variabiliteit van de data
§ Neemt alleen de extreme waarden mee
• Interkwartielafstand
o Laat extreme waarden buiten beschouwing (‘outliers’)
o Verdeelt de verdeling in 4 gelijke delen
§ Geeft 3 kwartielen
• K1 = 25%
• K2 = 50% à dus ook mediaan
• K3 = 75%
§ Interkwartielafstand (IKA): afstand tussen 1e en 3e kwartiel
• IKA = K3 – K1
• Centrale 50% van de verdeling
o Outliers wel interessant om te bekijken
§ Observaties die meer dan 1,5 IKA onder 1e kwartiel of boven 3e
kwartiel liggen
• Boxplot: vaak gebruikt om centrum en variabiliteit in kaart te brengen en outliers op te
sporen
2.3.2 Variantie en standaarddeviatie
• Nemen alle waarden van variabelen mee
• Variantie (s2): å (X – 𝑋)2
________
n–1
• Kwadrateren om negatieve getallen op te heffen
• Hoe groter de variantie:
o Hoe groter de variabiliteit
o Hoe meer de waardes rondom het gemiddelde verspreid zijn
• Nadeel: het is een gekwadrateerde maat
o Daarom wortel nemen van de variantie
§ Resultaat: standaarddeviatie (s)
§ Gemiddelde afstand van observatie tot het gemiddelde
VU Amsterdam | Premaster Bestuurskunde | Beschrijvende en Inferentiële Statistiek