1. Inleiding – verkennen van data
Info en praktische afspraken
Toegang tot opnames van hoc’s & wpo’s. WPO: SPSS (Alain) <-> R (Jeroen)
13 wpo’s van 3 uur -> wpo’s als aanvulling op deze cursus.
Evaluatie: meerkeuze-examen schriftelijk (op papier, zonder pc!) met verhoogde cesuur
(min. 12/20) (geen software examen dit jaar!). Multiple choice met verschillende
beweringen waarbij telkens maar één correct is. Héél goed nadenken tijdens examen.
Nadruk ligt op het kunnen interpreteren van data/resultaten/output die komen uit die
statistische tests + correct kunnen rapporteren volgens APA regels!
SPSS trainen we in de WPO’s, dan gaan leren interpreteren.
Thuis oefeningen maken om de wpo’s voor te bereiden! AI mag gebruikt worden om te
helpen bij hoe je iets moet doen.
Examen: Bevragen door casussen. Welke procedures moet je in de software doen en
hebben we dit nu op een correcte manier gedaan? Dit komt dus zeker op het examen!
Examen = 3 uur voor het hele examen (zou normaal voldoende tijd moeten zijn)
Belangrijkste leerstof: slides + didactisch materiaal (minder belangrijk = boek).
!! Boek van Andy Field gebruiken: hoc en wpo geïntegreerd. Echt aangeraden om in die
omgeving van Andy Field (link) te gaan oefenen.
1.1. Waarom hebben we data-analyse nodig?
Data-analyse is noodzakelijk voor psychologen. Het is geen extra onderdeel van
onderzoek, maar een vast en onmisbaar deel van het wetenschappelijk proces.
Het wetenschappelijk proces stap voor stap:
1) Observatie: Je merkt iets op in de praktijk of in eerdere
onderzoeken. Bijvoorbeeld: mensen met chronische
vermoeidheid lijken anders te slapen.
2) Onderzoeksvraag (OV): Je maakt je observatie concreet
in een vraag. Bijvoorbeeld: Hebben mensen met chronisch
vermoeidheidssyndroom meer diepe slaap dan anderen?
3) Theorie: Je zoekt in de literatuur naar verklaringen en
bouwt een theoretisch kader. Waarom zou dit zo kunnen
zijn? Wat zeggen eerdere studies?
4) Hypothese: Op basis van de theorie formuleer je een
concrete, toetsbare verwachting. Bijvoorbeeld: Mensen
met chronisch vermoeidheidssyndroom hebben gemiddeld meer diepe slaap dan
gezonde personen.
1
,5) Variabelen bepalen: Je beslist wat je precies gaat meten.
• Onafhankelijke variabele (bv. groep: CVS vs. controle)
• Afhankelijke variabele (bv. duur van diepe slaap)
6) Metingen uitvoeren: Je verzamelt gegevens via tests, vragenlijsten, experimenten,
observaties…
7) Data verzamelen: Nu heb je ruwe cijfers.
Eén van de eerste zaken die we dan doen: de data verkennen/bekijken!
Voordat je statistische testen uitvoert, moet je altijd eerst je data bekijken. Dit is
superbelangrijk. Je stelt jezelf vragen zoals: Hoe ziet mijn data eruit? Zijn er ontbrekende
waarden? Is alles correct gecodeerd? Zijn er vreemde uitschieters? Pas wanneer je je
data goed hebt verkend, kan je betrouwbare conclusies trekken.
Wat helpt data-analyse je precies doen? Data-analyse helpt je om:
1. Data te organiseren: bv in grafieken of tabellen.
2. Data te beschrijven: dit gebeurt via beschrijvende/deductieve statistiek. Je vat je
gegevens samen (gemiddelde, spreiding, percentages…).
3. Data te interpreteren en uitspraken te doen: dit gebeurt via inferentiële (inductieve)
statistiek. Hier probeer je op basis van je steekproef iets te zeggen over een grotere
groep. Je probeert verklaringen te vinden.
4. Theorieën te verifiëren en aan te passen: Je kijkt of je hypothese klopt. Klopt ze niet?
Dan moet je je theorie aanpassen/verfijnen o.b.v. je resultaten.
Waarom is dit zo belangrijk? Data-analyse helpt je niet alleen bij onderzoek, maar ook
om de wereld rondom je beter te begrijpen. Het helpt je: vakliteratuur kritisch te lezen,
onderzoeksresultaten correct te interpreteren, kritisch te kijken naar cijfers in de
media,...
Een bekend voorbeeld: ooit werd er een studie gepubliceerd die beweerde dat vaccins
autisme veroorzaken. Die studie bleek later fout en misleidend te zijn. Toch kreeg dit
idee veel aandacht in de media. Hierdoor begonnen mensen te twijfelen aan vaccinatie,
wat gevaarlijke gevolgen had voor de volksgezondheid (mensen en baby’s stierven
omdat ze zich niet lieten vaccineren).
Dit toont aan dat het niet begrijpen of verkeerd interpreteren van statistiek soms
letterlijk levensgevaarlijk kan zijn. Daarom is een basiskennis van data-analyse
essentieel voor psychologen — en eigenlijk voor iedereen.
1.2. Grafisch verkennen van data
Grafieken: wat doen ze en waarom zijn ze belangrijk?
Volgens Tufte (2001) moet een goede grafiek data onthullen: ze moet de gegevens
tonen zoals ze écht zijn. Ze vat grote datasets samen, maakt ze coherent en laat de lezer
verschillende gegevens met elkaar vergelijken. Daarnaast zet een grafiek de lezer aan
tot nadenken en schept ze statistische verwachtingen over wat er verder in de analyse
2
,zal volgen. Een beeld zegt vaak meer dan duizend woorden, en in een masterproef toont
correct gebruik van grafieken dat je data kan lezen en interpreteren. Het gevaar is echter
dat iemand een mooie grafiek maakt die niet overeenkomt met de analyse of tekst. Een
grafiek schept verwachtingen, dus ze moet inhoudelijk correct en eerlijk zijn.
Bij het kiezen van een presentatiemethode moet je altijd streven naar optimaal begrip
van de data. Als je drie of minder getallen presenteert, gebruik je beter een zin. Als je
meer dan twintig getallen moet tonen, is een grafiek meestal nuttiger dan een tabel,
tenzij het belangrijk is dat alle exacte statistische informatie zichtbaar blijft, zoals bij
een ANOVA-tabel. ANOVA (Analysis of Variance) is een statistische test waarmee je
nagaat of meerdere groepen van elkaar verschillen in gemiddelde. De ANOVA-tabel
toont onder andere variantie tussen groepen, variantie binnen groepen, een F-waarde
en een p-waarde. In zo’n geval is een tabel functioneler dan een grafiek.
Voorbeeld: slaapdata en variatie. Stel dat iemand elk
uur noteert of hij slaapt (1) of wakker is (0). Elke cel in
Excel stelt één uur voor. Dit is vergelijkbaar met wat
een Fitbit registreert, maar hier, door de persoon,
wordt het handmatig bijgehouden. Als je slaap blauw
markeert, zie je meteen dat de data sterk varieert. Dat
is het uitgangspunt van statistiek: data varieert, en wij
proberen patronen te herkennen in die variatie.
In juli en augustus 2021 (covidperiode) zie je een
zogenaamd zebrapatroon (rood omcirkeld): de
persoon ging elke dag wat later slapen. Dit noemen we een “free running” ritme. Tijdens
die periode werd ook geobserveerd dat jongeren hun slaappatroon verschoven. Na
augustus zie je enkele dagen meer stabiliteit, maar tijdens weekends verschuift het
slaapuur opnieuw. In september en oktober volgde de persoon online les, wat opnieuw
voor variatie zorgde. Vanaf 2024, bij terugkeer naar fysieke lessen, werd het
slaappatroon veel consistenter. Hieruit kan je al een mogelijk effect van de pandemie op
het slaappatroon vermoeden. Verzamel je dergelijke data bij meerdere personen, dan
kan je groepen vergelijken.
Als op een bepaald uur (in het hele bestandje) van een bepaalde dag en
maand het gemiddelde 0.67 is, betekent dit dat er 67% kans is dat de
persoon op dat moment slaapt. Plot je dit over 24 uur, dan krijg je een
kansverdeling van slaap. Met een heatmap (bijvoorbeeld groen = slaap, rood
= wakker) kan je patronen visueel versterken. Zo zie je bijvoorbeeld dat bij
fysiek onderwijs de kans op slaap ’s nachts hoger is en overdag lager.
Boxplot
Een boxplot geeft informatie over positie, spreiding en symmetrie van een verdeling. Je
ziet het eerste kwartiel (P25), de mediaan (P50), het derde kwartiel (P75), de
3
, interkwartielafstand (IQR) en de hoogste en
laagste niet-outlier. Waarden die meer dan 1,5
keer de interkwartielafstand boven P75 of
onder P25 liggen, worden als outliers
beschouwd, waaronder het minimum en
maximum. Extreme outliers liggen meer dan 3
interkwartielafstanden buiten deze grenzen.
Door enkel naar een boxplot te kijken, kan je al
veel afleiden over de verdeling. In een normale verdeling liggen gemiddelde en mediaan
ongeveer op dezelfde plaats. Als het gemiddelde hoger ligt dan de mediaan, wijst dit op
een rechtsscheve (positief scheve) verdeling, waarbij
de staart zich uitstrekt naar de hogere waarden (want
gemiddelde is gevoelig voor uitschieters). Ligt het
gemiddelde lager dan de mediaan, dan is de verdeling
linksscheef. Een boxplot geeft dus een eerste indruk
van hoe sterk de data afwijkt van een normale
verdeling. Het maken van boxplots wordt geoefend in
SPSS tijdens de WPO’s.
Histogram
Een histogram is een goede manier om de normaliteit van een verdeling
te beoordelen. Je ziet of de data symmetrisch is, scheef verdeeld is of
meerdere pieken bevat. Dit is belangrijk omdat veel statistische testen
veronderstellen dat de data normaal verdeeld is.
Scatterplot en relaties tussen variabelen
Simple
Scatter
Grouped
Scatter
Simple 3-D Grouped 3-D Summary
Scatter Scatter Point Plot
Een scatterplot gebruik je om de relatie
tussen twee variabelen te onderzoeken. Je kan zien of er
een verband is, of het lineair is (rechte lijn) en of er
uitschieters zijn die de resultaten kunnen vertekenen. Een
3D-scatterplot wordt afgeraden omdat die interpretatie
moeilijker maakt zonder echte meerwaarde.
Simple Scatterplot Drop-Line
Dot Plot Matrix
Wanneer je een relatie modelleert, stel
je jezelf de vraag of een rechte lijn de beste beschrijving is. Soms past
een kromme beter (zoals hier getekend in het blauw op de afbeelding
rechts), maar dat vereist extra parameters. Hier geldt het principe van
parsimonie: verklaar zoveel mogelijk van de data met zo weinig
mogelijk parameters. Het eenvoudigste model dat voldoende goed
past, krijgt de voorkeur.
4