Univariaat
1. Meetniveau’s
Nominaal
● Categorieën zonder volgorde.
● Alleen onderscheid maken, niet ordenen.
Ordinaal
● Categorieën met volgorde.
● Zonder vaste afstanden tussen de categorieën.
Interval
● Numerieke waarden met gelijke afstanden tussen de punten.
● Zonder absoluut 0-punt.
Ratio
● Numerieke waarden met gelijke afstanden tussen de punten.
● Met absoluut 0-punt, de variabel is ‘afwezig’ bij 0.
2. Bias
Selectiebias
● Een systematische fout die optreedt wanneer de wijze van steekproeftrekking ervoor
zorgt dat bepaalde groepen in de populatie over- of ondervertegenwoordigd zijn.
● Bijvoorbeeld vrijwillergersbias
Response bias
● Systematische fout die optreedt wanneer de antwoorden van de deelnemers worden
beïnvloed door bepaalde factoren, waardoor de antwoorden niet de werkelijke
opvattingen, attitudes, of gedrag van de deelnemers weerspiegelen.
○ Sociale wenselijkheid bias
○ Instemming bias
○ Interviewer bias
Nonresponse bias
● Systematische fout die optreedt wanneer bepaalde individuen die voor een
onderzoek zijn geselecteerd, niet deelnemen of niet reageren. Als de
niet-respondenten systematisch verschillen van de respondenten, kan dit leiden tot
een vertekening van de onderzoeksresultaten.
3. Experiment vs observationele studie
Experimenten Observationele studies
Deelnemers worden willekeurig Deelnemers worden niet toegewezen aan
, toegewezen aan een experimentele groep groepen of condities; onderzoeker
en een controlegroep (of meerdere observeert
groepen). mensen/situaties/omstandigheden zoals ze
‘van nature’ voorkomen.
Onderzoeker manipuleert zelf 1 of Onderzoeker observeert variabelen zoals
meerdere variabelen om hun effect te ze van nature voorkomen. Onderzoeker
onderzoeken. Experimentele groep wordt neemt gegevens waar, maar beïnvloedt
blootgesteld aan stimulus/interventie. deze niet.
Lijken soms niet op de ‘echte wereld’. Lage Vaak hogere externe validiteit, aangezien
externe validiteit. de studie plaatsvindt in haar natuurlijke
omgeving.
Onderzoeker controleert omstandigheden Vaak beperkt tot het vaststellen van
en manipulatie: sterke conclusies, mogelijk correlaties en associaties. Moeilijker te
over causaliteit. bepalen wat de daadwerkelijke oorzaak van
iets is. Het is bij observationele data een
stuk moeilijker om causale claims te maken.
Soms ethische uitdagingen. Je kunt niet Vaak ethisch minder problematisch.
alles manipuleren als onderzoeker.
Bijvoorbeeld: lab experimenten, Bijvoorbeeld: surveys, landen data,
veldexperimenten, survey experimenten. overheidsdata over gezondheid en
onderwijs, historische archieven.
4. Centrummaten
Gemiddelde = alle waarden opgeteld, delen door aantal waarden. Gevoelig voor outliers.
Mediaan = middelste waarde.
Modus = waarde die het meest voorkomt.
5. Spreidingsmaten
Bereik = afstand tussen hoogste en laagste waarde.
Interkwartielbereik = kwarten die de data splitsen in 4 gelijke groepen. Q3 - Q1.
Standaardafwijking = geeft aan hoeveel eenheden gemiddeld genomen afwijken van het
gemiddelde.
, Grondslagen inferentiële statistiek
1. De normale verdeling
Kenmerken: één piek, symmetrisch (gemiddelde = mediaan = modus), asymptotisch t.o.v.
x-as (curve raakt nooit x-as).
Als we te maken hebben met een normale verdeling (waarvan we de μ en de s kennen)
kunnen we
- de waardes van observatie (y) standaardiseren tot z-scores,
- met de z-scores weten we hoeveel standaardafwijkingen een observatie af ligt
van het gemiddelde,
- waarmee we vervolgens met de z-tabel de kans (p) kunnen uitrekenen om die
waarde te vinden.
2. Steekproevenverdeling
Als we meerdere steekproeven (met grote n) uit een gegeven populatie trekken, en
vervolgens voor elke individuele steekproef het gemiddelde berekenen (kwantitatieve
variabele), en dan de frequentieverdeling van al die steekproefgemiddelden tekenen, krijgen
we een normale verdeling: de steekproevenverdeling.
Als de populatie al normaal verdeeld is, dan is de steekproevenverdeling ongeacht de
grootte van n, ook normaal verdeeld.
Bij een minder/niet normale verdeling is n=30 meestal genoeg voor een normaal verdeelde
steekproevenverdeling. Hoe groter de n, hoe kleiner de standaardfout, hoe smaller de
steekproevenverdeling.
Het gemiddelde van de steekproevenverdeling is gelijk aan het populatiegemiddelde.
Om de kans (p) te bepalen om een bepaald steekproefgemiddelde te vinden, gebruiken we
de z-score en z-tabel. Als de populatieparameters nog niet bekend zijn en je wilt het
gemiddelde berekenen, gebruik je de t-tabel.
Bij categoriale variabelen zijn we geïnteresseerd in de populatieproporties.
3. Schatten
● Populatieparameter
Het betrouwbaarheidsinterval is het bereik waarbinnen we verwachten dat de werkelijke
populatiewaarde zich bevindt. Het betrouwbaarheidsniveau is de kans dat het interval
daadwerkelijk de populatieparameter bevat. Bij een betrouwbaarheidsniveau van 95%
bevinden 95% van de observaties zich tussen -1.96 en + 1.96 standaardafwijkingen van het
gemiddelde. Bij 99% is dat tussen -2.58 en +2.58.