Onderzoeksmethoden
Jaar 2 , blok 2
,Side note: de hst. van M1,2,3 komen uit boek 1 , de andere hst. die ik noem komen uit boek 2 😊!
M1 – Voorkennis
Hoofdstuk 2 – Basic research concept
(alleen: 2.1-2.2.3 , 2.6-2.8 , 2.11-2.12)
Data (set) verwijst naar informatie (meestal numeriek) over meerdere variabelen. Analyse
betekent het toepassen van statistische technieken. Een variabele is een kenmerk dat kan
verschillen tussen personen of objecten. De onderzochte eenheden heten subjects/cases.
Er zijn twee hoofdsoorten variabelen:
Categorische variabelen / nominale variabelen: geven alleen aan tot welke groep
iemand behoort (bijv. geslacht). De nummers zijn labels en hebben geen wiskundige
betekenis.
Quantitatieve variabelen: geven hoeveelheden weer (bijv. lengte), waarmee rekenen
en gemiddelden nemen wel zinvol is. Ordinaal (ordening), Interval (ordening, maar
zonder nulpunt), Ratio (ordening met nulpunt, waardoor je ook bijv. kan zeggen dat iemand 2x zoveel
is dan de ander)
In een experimenteel onderzoeksdesign vergelijkt de onderzoeker groepen die verschillende
behandelingen krijgen. Vaak is er een controle groep (geen behandeling) en een of meer
experimentele groepen. Belangrijk hierbij is:
Random sampling van participanten van een populatie = willekeurig selecteren van
deelnemers uit de populatie, zodat de steekproef representatief is voor de populatie,
zodat je hiernaar kan generaliseren.
V Simple random sampling = iedereen in de populatie heeft dezelfde kans
om in de steekproef terecht te komen.
V Stratified sampling = de populatie wordt opgedeeld in strata (groepen zoals
geslacht, afkomst, leeftijd,..) en binnen elk stratum wordt een aselecte
steekproef getrokken
X Convenience sampling / accidental sample = de steekproef bestaat uit
degene die voorhanden zijn meestal is er hiervan sprake maar worden er
conclusies getrokken alsof de steekproef aselect was
Random assignment van participanten in condities = willekeurig toewijzen van
deelnemers aan groepen. Dit voorkomt dat bestaande kenmerken de uitkomst
vertekenen.
Standaardisatie / experimentele controle over andere situationele factoren / vreemde
(extraneous) variabelen = zoveel mogelijk andere invloeden gelijk houden.
Soms treedt unlucky randomization op: toevallig ongelijke groepen ondanks randomisatie.
Bij een nonexperimenteel onderzoeksdesign / correlationele studie worden variabelen
alleen gemeten, waardoor causaliteit moeilijk vast te stellen is.
,Een quasi-experimenteel onderzoeksdesign ligt tussen experimenteel en niet-experimenteel
in. Er zijn groepen en een behandeling, maar de onderzoeker heeft geen volledige controle
(bv. bestaande klassen vergelijken = nonequivalente controle groepen). Hierdoor blijft de
kans op een foute conclusie bestaan.
Proximal similarity model = onderzoekers mogen generaliseren zolang de kenmerken van
hun aselecte steekproef lijken op die van de bredere populatie. Dit wordt soms een
hypothetische / denkbeeldige (imaginary) populatie genoemd: een denkbeeldige populatie
waarvoor de resultaten waarschijnlijk ook gelden.
Als er wél sprake is van een random sample, dan gebruiken onderzoekers het sampling
model: methoden waarmee je resultaten van de steekproef kan doortrekken naar de populatie.
(Maar in beide gevallen moeten generalisaties voorzichtig gebeuren, omdat zelfs een
willekeurige steekproef niet altijd volledig representatief hoeft te zijn.)
Hoofdstuk 7 - Steekproe out & Betrouwbaarheidsinterval
(alleen: 7.1 , 7.2 , 7.5 , 7.13 , 7.14)
Bij het gebruik van statistiek onderscheiden we twee functies:
Descriptieve statistiek: hierbij beschrijven we alleen de gegevens van een steekproef.
De analyse blijft beperkt tot de onderzochte groep, zonder uitspraken te doen over een
bredere populatie.
Centrummaten (Measures of central tendency) = Gemiddelde ( ),
Mediaan (score die laagste en hoogste helft vd scores scheidt),
Modus (meest geobserveerde score)
Spreidingsmaten (Measures of dispersion) = Variantie ( ), Standaarddeviatie
( )
Inferentieel gebruik van statistiek: hierbij willen onderzoekers uitspraken doen over
een populatie op basis van een steekproef.
Belief in de Law of Small Numbers = vaak wordt gedacht dat de steekproef
heel representatief is voor de populatie zeker bij kleine steekproeven is dit
niet het geval & kunnen de steekproeven erg van elkaar verschillen
(steekproef-fluctuaties).
(Grotere steekproeven lijken meer op de populatie en hebben meer power.)
2 populaire methoden zijn: Nul hypothese significantie testen (NHST), mbv.
een one-sample T-toets & Betrouwbaarheidsinterval schatting
NHST: Formuleer H0 en H1 bepaal de beslisregel (alpha) haal de t-waarde en p-waarde uit je
uitput verwerp op basis hiervan H0 wel of niet
Als je eenzijdig toetst, heb je eerder een significant resulaat (áls het effect ook die richting op is), je mag
dan de p-waarde die SPSS geeft voor je data door 2 delen.
Uitdagingen hierbij zijn:
1. Representativiteit van de steekproef.
2. Steekproeffout (sampling error): verschillende steekproeven uit dezelfde populatie
leveren vaak verschillende gemiddelden op.
,De steekproevenverdeling van M is de verdeling van gemiddelden over heel veel
steekproeven uit dezelfde populatie. Deze verdeling heeft een gemiddelde gelijk aan het
populatiegemiddelde (μ) en een spreiding die wordt weergegeven door de standaardfout
(σM of SEM).
De populatiekenmerken waarnaar we willen generaliseren worden parameters genoemd
(bijvoorbeeld het populatiegemiddelde μ of de populatievariantie). Bijv. het gemiddelde /
variantie van de steekproefgegevens zijn schattingen van die parameters.
Een belangrijk hulpmiddel bij inferentiële statistiek is het confidence interval
(betrouwbaarheidsinterval). Dit is een interval rond het steekproefgemiddelde dat een gekozen
betrouwbaarheidslevel (vaak 95%) heeft.
Dit betekent: Als je heel veel steekproeven van dezelfde populatie neemt, en voor elk daarvan
een 95%-CI berekent, dan zal ongeveer 95% van die intervallen het échte
populatiegemiddelde bevatten. (en 5% zal een CI hebben die het populatiegemiddelde niet
bevat).
Of: Wanneer we de studie heel vaak over zouden doen, dan zou de echte waarde (populatie
waarde) in 95% van de keren in het interval zitten. Daarom zijn de waarden die tussen het
interval zitten, waarschijnlijke waardes van de populatiecorrelatie.
Met een kleinere steekproef is het CI breder, waardoor er minder zekerheid is over de
populatie.
Hoofdstuk 9 (alleen: 9.1 , 9.4-9.16)
In onderzoek wordt vaak veel nadruk gelegd op p-waarden, dit is de kans op de gevonden
data (bijv. r of M) of nog extremer, áls de nul-hypothese waar zou zijn. (En je kan bijv. NIET
dat dat de kans is dat de nul-hypothese waar is!)
Wanneer p < .05, trekken onderzoekers soms te snel conclusies. Dit kan misleidend zijn,
omdat p-waarden afhankelijk zijn van steekproefgrootte én effectgrootte, en vaak verkeerd
geïnterpreteerd of gemanipuleerd worden (bijv. via p-hacking).
Het is daarom belangrijk om onderscheid te maken tussen statistische significantie en
klinische/praktische significantie. Een resultaat kan statistisch significant zijn (niet
waarschijnlijk dat het door toeval komt), maar in de praktijk te klein om betekenisvol te zijn.
Bijvoorbeeld: een onderzoek toont een verschil van 1 IQ-punt met p < .001; dit is statistisch
significant, maar praktisch verwaarloosbaar.
,Naast p-waarden moet men ook effectgroottes en betrouwbaarheidsintervallen rapporteren.
Dit geeft meer informatie over de werkelijke impact van een behandeling of interventie.
Een belangrijk concept hierbij is statistische power: de kans om H₀ correct te verwerpen
wanneer H₀ onjuist is. Een studie is onderpowered wanneer de steekproefgrootte te klein is
om een werkelijk effect op te sporen. Poweranalyses worden gebruikt om een geschikte
steekproefgrootte te kiezen. Het is daarbij fout om achteraf een post hoc power analyse te
doen, omdat die misleidend kan zijn: power moet vóór de studie berekend worden.
Bij toetsing van hypothesen kunnen twee soorten beslissingsfouten optreden:
Type I fout: H₀ wordt verworpen terwijl H₀ in werkelijkheid waar is (vals positief).
Type II fout: H₀ wordt niet verworpen terwijl H₀ in werkelijkheid onwaar is (vals
negatief).
Het begrip fout/error in statistiek verwijst naar onvermijdelijke fouten, zoals bijv. de
steekproeffout.
Een bevestigende studie test een beperkt aantal hypothesen die vooraf zijn opgesteld. Zulke
studies hebben meestal weinig variabelen en weinig significantietoetsen.
Een verklarende studie is meer open en verkennend. Hierbij worden vaak veel variabelen
onderzocht om te zien welke verbanden er allemaal zijn. Deze studies kunnen hypotheses
opleveren die dan in bevestigende studies getoetst worden, maar wanneer resultaten uit
verklarend onderzoek als bevestigend worden gepresenteerd, onderschatten p-waarden
heeeeel erg het werkelijke risico op een Type I fout.
Daarnaast verhogen meerdere toetsen gebruiken het risico op Type I fouten, dus dat een/meer
resultaten puur door toeval zijn.
P-hacking / “fishing” = scores weglaten/toevoegen, of veel variabelen testen en alleen
significante rapporteren dit laatste is dus een groter probleem bij verklarende studies (want
daar worden vaak veel variabelen getest).
Een niet-significant resultaat betekent niet automatisch dat de nulhypothese klopt. Het kan
komen door een te kleine steekproef, kleine effectgrootte, steekproeffout of zwakke
onderzoeksopzet. Publicatiebias zorgt er bovendien voor dat nulresultaten vaak niet
gepubliceerd worden, waardoor meta-analyses vertekend raken.
Ook statistisch significante resultaten moeten kritisch bekeken worden: ze kunnen ontstaan
door steekproeffout, menselijke fouten of misleidende p-waarden. Kleine p-waarden
betekenen niet automatisch een groot of belangrijk effect. Daarom moeten effectgroottes en
betrouwbaarheidsintervallen altijd meegenomen worden. Bij goed onderzoek moet je
vooraf vastleggen: toetssoort, α, omgaan met outliers, en verwachte effectgrootte en power.
Onderzoekrapporten moeten volledig zijn (N, M, SD, SEM, t, p, CI, effectgrootte).
, Voor deze module & voor module 1 was hoofdstuk 10 stof, deze heb ik onder module 2
samengevat!
M2 – Pearson’s r
Hoofdstuk 10 - Bivariate Pearson correlatie
Pearson’s r wordt gebruikt om te onderzoeken of twee kwantitatieve variabelen samenhangen
op een lineaire manier. De correlatie in een steekproef heet r, terwijl de correlatie in de
populatie ρ heet.
Correlatie betekent niet causaliteit. Een statistische relatie is namelijk noodzakelijk, maar niet
voldoende voor causaliteit.
De waarde van r ligt tussen –1 en +1. Het teken geeft de richting van de relatie aan (positief of
negatief), het getal geeft de sterkte van de relatie aan. Een waarde rond 0 betekent: weinig/
geen lineair verband, maar het verband kan dan bijv. ook krom of U-vromig zijn!
1.0 = perfect , 0.5 = sterk , 0.3 = matig , 0.1 = zwak , 0.0 = geen maar verschilt wel per context! (bijv. als
het ergens lastig is om een verband te vinden en het is 0.4, dan wordt dat toch als sterk gezien)
Wanneer mag je Pearson’s r gebruiken?
1. De steekproef moet representatief zijn voor de populatie, en dus random /
onafhankelijk van elkaar zijn gekozen.
2. De relatie tussen X en Y moet redelijk lineair zijn.
3. Er mogen geen extreme bivariate outliers zijn (een vb. hiervan is heel kort zijn maar
hele grote voeten hebben), omdat die de correlatie sterk kunnen vertekenen.
4. Observaties moeten onafhankelijk zijn.
5. De variabelen moeten meestal kwantitatief zijn, maar één of beide kunnen ook een
dichotome variabele zijn (bv. geslacht). Als beide variabelen dichotome variabelen
zijn, heet dit een phi-coëfficiënt.
6. De verdelingsvormen van X en Y moeten enigszins vergelijkbaar zijn.
Anders moet je bijv. Spearman’s rho of Kendall’s tau gebruiken (dit zijn non-parametische
testen)
Voor Pearson’s r moet je eerst ontbrekende waarden, onmogelijke scores en outliers fixen.
Ook wordt gekeken of de verdelingen redelijk normaal zijn en of de relatie tussen X en Y
lineair is. Vooral bivariate uitschieters zijn problematisch: dit zijn ongebruikelijke
combinaties van X- en Y-scores die sterk invloed kunnen hebben op de waarde van r
(vergroten/verkleinen). Regels voor het omgaan met outiers moeten vooraf vastgelegd
worden, om p-hacking te voorkomen.
Wanneer beide variabelen in de scatterplot hoog/laag zijn, spreken we van
overeenstemmende paren (concordant); deze maken r positiever. Wanneer de ene variabele