📗 WEEK 1 — Introductie tot R en Beschrijvende
Statistiek (basis)
Wat is statistiek en waarvoor gebruik je het?
Statistiek is een gereedschap om zinvolle uitspraken te doen over data. Je doet dat op
twee manieren:
● Beschrijvende statistiek (descriptive statistics): je beschrijft je data zonder verdere
conclusies. Bijvoorbeeld: "Het gemiddelde cijfer in de klas is een 7,2."
● Inferentiële statistiek (inferential statistics): je trekt conclusies over een grotere
groep (populatie) op basis van een kleinere groep (steekproef). Bijvoorbeeld: "Op
basis van 500 studenten concludeer ik dat RUG-studenten gemiddeld een 7,2
scoren."
R en RStudio
R is een programmeertaal voor statistiek. RStudio is de omgeving waarmee je R gebruikt. In
week 1 leer je de basisprincipes:
a <- 5 # sla waarde op in variabele
b <- c(2, 4, 6, 7, 8) # sla meerdere waarden op (vector)
mean(b) # bereken het gemiddelde
Data importeren en bekijken
dat <- read.csv('survey.csv', sep=',', dec='.') # data inladen
head(dat) # eerste rijen bekijken
dat[5:8, c(1,3)] # rijen 5-8, kolommen 1 en 3
dat$english_grade # één kolom ophalen
,Conditionele indexering (filteren)
dat[dat$sex == 'F', ] # alleen vrouwen
dat[dat$age > 20 & dat$sex == 'F', ] # meerdere voorwaarden
Dataset van de cursus
De cursus gebruikt een dataset van RUG-studenten met variabelen als:
● sex, age, study, english_grade, english_score
WEEK 2 — Beschrijvende Statistiek
Dit is de kern van week 2: hoe beschrijf je data goed?
Steekproef vs. populatie
● Populatie: de hele groep waarover je iets wilt weten (bijv. alle RUG-studenten)
● Steekproef (sample): een deelverzameling die je daadwerkelijk bestudeert
● Een goede steekproef is representatief — willekeurige selectie helpt hierbij
Typen variabelen (meetniveaus) — TENTAMENSTOF!
Type Kenmerken Voorbeelden
Nominaal Ongeordende categorieën Geslacht, moedertaal,
studierichting
Ordinaal Geordend, maar verschil onduidelijk Likertschaal (1–5), ranglijst
Interval Numeriek, zinvol verschil, géén echte Temperatuur in °C, geboortejaar
nul
Ratio Numeriek, zinvol verschil, wél echte nul Leeftijd, aantal vragen goed
🔑 Vuistregel: het meetniveau bepaalt welke statistieken je mag gebruiken.
Gemiddelde leeftijd = prima. Gemiddelde moedertaal = zinloos.
, Maten van centrale tendentie
● Modus: meest voorkomende waarde (enige zinvolle maat voor nominale variabelen)
● Mediaan: de middelste waarde als je alles sorteert van klein naar groot
● Gemiddelde (mean): optelling van alle waarden ÷ aantal
Formule gemiddelde (moet je kunnen berekenen!):
Voorbeeld: scores [4, 6, 6, 7, 8] → gemiddelde = 31/5 = 6,2 | mediaan = 6 | modus =
6
Maten van spreiding
● Range: maximum − minimum
● Kwartiel: deelt data in vier gelijke stukken. Q1 = 25ste percentiel, Q2 = mediaan, Q3
= 75ste percentiel
● IQR (interkwartielafstand): Q3 − Q1 → geeft de middelste 50% van data weer
● Variantie (variance): gemiddelde gekwadrateerde afwijking van het gemiddelde
❓ Waarom n−1 in de steekproef formule? Omdat het steekproefgemiddelde x een schatting
is van het populatiegemiddelde μ. Delen door n−1 corrigeert voor deze onzekerheid (geeft
iets hogere variantie = eerlijkere schatting).
Boxplot
Een boxplot visualiseert de spreiding van een variabele:
● Box = IQR (van Q1 tot Q3)
● Dikste streep = mediaan (Q2)
● Snorharen = min en max (excl. uitbijters)
● Cirkels = uitbijters (>1,5 × IQR buiten de box)