📝
GRASPLE
Bayes
VOS Voorkennis
Theorie
BAYESIAANSE HYPOTHESE EVALUATIE EN DE BAYES FACTOR
In de klassieke statistische toetsprocedure volg je de volgende stappen:
Onderzoeksvraag > Nulhypothese (H0) > Toets > Verwerpen H0 of niet verwerpen H0 (op
basis van p-waarde)
Dit is de procedure die bekend staat onder de naam Null Hypothesis Significance Testing
(NHST). NHST impliceert dat onderzoekers uiteindelijk concluderen "er is niets"
(als p> αα en de nulhypothese niet wordt verworpen) of "er is iets" (als p <≤ αα en de
nulhypothese wel wordt verworpen). En bij een "er is iets" spreken we van significant resultaat.
Vaak rapporteert men dan ook een effectgrootte (bijvoorbeeld r of Cohens's d) als schatting
voor het effect waarin men geinteresseerd is.
Met de Bayesiaanse procedure kan je meerdere hypotheses tegelijkertijd evalueren. Je kan dan
uitbreidingen van modellen met elkaar vergelijken om tot het best passende model te komen.
Hiervoor vergelijk je de Bayes Factoren voor elke hypothese met elkaar. In deze les laten we zien
hoe de je de evaluatie van hypotheses volgens de Bayesiaanse procedure uitvoert.
Bij Bayesiaanse hypothese toetsing gaan we na hoeveel ondersteuning, uitgaande van de
steekproefgegevens, er is voor de verschillende hypotheses. Deze maat voor relatieve steun is
de Bayes Factor (BF).
De Bayes Factor (BF) geeft aan hoeveel de ene hypothese meer steun krijgt in verhouding tot
een andere hypothese.
Stel we evalueren de nulhypothese H0: μ1=μ2versus een alternatieve hypothese HA: μ1≠μ2. De
Bayes Factor die hierbij wordt berekend is BFH0HA=5. Een BF = 5 betekent dan dat er vijf keer
meer steun is voor H0 dan voor HA.
De Bayes Factor is dus een maat voor de relatieve hoeveelheid steun voor de ene hypothese
versus de andere. Wat betekent dat eigenlijk? Voor antwoord op deze vraag moeten we weten
waar de steun in de data voor een hypothese door bepaald wordt. De hoeveelheid steun die we
vinden in de data (steekproef) voor een hypothese is afhankelijk van twee zaken:
(1) De fit van de hypothese voor de data, ofwel hoe goed past de hypothese bij de data, en
(2) De specificiteit van de hypothese, ofwel hoeveel mogelijkheden worden met de hypothese
uitgesloten.
Er zijn geen 'objectieve' grenswaarden zoals we die kennen bij het gebruik van p-waarden voor
het beoordelen van de hoeveelheid steun voor een hypothese. We weten
dat BFH0 HA=60 betekent dat er 60 keer meer steun is voor H0, en we weten
GRASPLE 1
, dat BFH0 HA=1.5betekent dat er maar 1,5 keer meer steun is voor H0. De hypothese waarvoor
de BF = 60 is er dus meer steun dan voor de hypothese waarvoor de BF = 1.5
Validiteit
VOS Voorkennis
Theorie
BEGRIPSVALIDITEIT
We hebben begripsvaliditeit gedefinieerd als de mate waarin de gebruikte meetinstrumenten
slagen in het meten van de concepten/constructen die onderzocht worden. In experimenteel
onderzoek gaat het daarnaast om de mate waarin de bedoelde manipulatie geslaagd is.
Begripsvaliditeit gaat dus over de overeenstemming tussen de operationalisatie (door middel
van het meetinstrument) en het theoretisch begrip (zoals beschreven in de conceptuele
definitie).
1. Om de begripsvaliditeit van een wetenschappelijk onderzoek te beoordelen, kun je dus
bijvoorbeeld de volgende vragen stellen:
2. Welke theoretische begrippen worden er gemeten of gemanipuleerd in het onderzoek
(conceptuele definitie)?
3. Met welke meetinstrumenten worden de theoretische begrippen gemeten (operationele
definitie)?
4. Meet het gekozen meetinstrument wel wat het beoogt te meten?
5. Is er een betrouwbaarheidsanalyse uitgevoerd? Zo ja, wat is hiervan het resultaat?
Daarnaast heb je in eerdere cursussen geleerd dat je meer te weten kunt komen over de
begripsvaliditeit door te kijken naar de inhoudsvaliditeit, indruksvaliditeit, convergente validiteit,
divergente validiteit en criteriumvaliditeit. Deze kennis kun je gebruiken bij het beoordelen van
de begripsvaliditeit van een wetenschappelijk onderzoek, maar we gaan daar in deze les verder
niet op in.
INTERNE VALIDITEIT
We hebben interne validiteit gedefinieerd als de mate waarin de onderzoeksmethode
alternatieve verklaringen voor een effect kan uitsluiten. Dit ‘effect’ kan betrekking hebben op
zowel een relatie tussen variabelen als een verschil tussen groepen. Interne validiteit gaat dus
over de mogelijkheid om te bepalen of er sprake is van een causaal verband (oorzaak-
gevolgrelatie).
In voorgaande cursussen heb je geleerd dat er drie voorwaarden zijn om te kunnen spreken van
een causaal verband. Om te bepalen of aan deze voorwaarden wordt voldaan kun je de
volgende vragen stellen:
1. Is er sprake van een relatie tussen twee of meer variabelen?
2. Gaat de oorzaak vooraf aan het gevolg (in tijd)?
3. Kunnen we andere verklaringen voor het gevonden verband uitsluiten?
Met experimenteel onderzoek kunnen we in principe een hogere interne validiteit realiseren dan
met kwalitatief of correlationeel onderzoek. Een experiment kunnen we namelijk uitvoeren in
een gecontroleerde setting, waardoor we alternatieve verklaringen zo veel mogelijk kunnen
GRASPLE 2
, uitsluiten. We kunnen dan bepalen of er sprake is van een causaal verband tussen de
afhankelijke en de onafhankelijke variabele.
Om de interne validiteit van een wetenschappelijk onderzoek te beoordelen kun je dus ook de
volgende vraag stellen: ‘Is er gebruikgemaakt van een experiment?’. Is het antwoord op deze
vraag ‘ja’ en is het experiment goed uitgevoerd, dan heeft het onderzoek een hoge interne
validiteit.
EXTERNE VALIDITEIT
We hebben externe validiteit gedefinieerd als de mate waarin de onderzoeksresultaten
gegeneraliseerd kunnen worden naar andere groepen, tijden en situaties. Externe validiteit gaat
dus over de mogelijkheid om op basis van de onderzoeksresultaten iets te zeggen over
situaties buiten het onderzoek, oftewel over situaties in een real-world setting.
Om de externe validiteit van een wetenschappelijk onderzoek te beoordelen, kun je bijvoorbeeld
de volgende vragen stellen:
1. Welke populatie wordt er onderzocht?
2. Welke steekproefmethode is er gebruikt?
3. Hoe representatief is de steekproef voor de populatie?
4. Wat kunnen we op basis van de onderzoeksresultaten zeggen over situaties in een real-
world setting?
Ook al is een steekproef groot, dit maakt hem nog niet representatief. De representativiteit hangt
af van de gebruikte steekproefmethode.
Als je onderzoeksresultaten wilt generaliseren, zijn aselecte steekproefmethoden geschikter dan
selecte steekproefmethoden. In het algemeen is een steekproef op basis van een aselecte
steekproefmethode (zoals een enkelvoudige aselecte steekproef) representatiever, omdat
respondenten hierbij willekeurig (op toevalsbasis) geselecteerd worden. Dit betekent dat
iedereen in de populatie evenveel kans heeft om deel uit te maken van de steekproef. Daarom
kunnen resultaten beter gegeneraliseerd worden naar de populatie dan wanneer je gebruik zou
maken van een selecte steekproefmethode.
Interne en externe validiteit staan los van elkaar. Als de interne validiteit laag is, kan de externe
validiteit nog steeds vrij hoog zijn (en omgekeerd).
Bijvoorbeeld: een correlationele studie met een representatieve steekproef kan niet gebruikt
worden om causale conclusies te trekken (lage interne validiteit), maar de resultaten kunnen wel
gegeneraliseerd worden (hoge externe validiteit).
En andersom: een experimentele studie kan wél gebruikt worden om causale conclusies te
trekken (hoge interne validiteit), maar bij een niet-representatieve steekproef kunnen de
resultaten niet gegeneraliseerd worden (lage externe validiteit).
Ook komen experimenten soms niet overeen met de situatie in de werkelijkheid, bijvoorbeeld
wanneer er gebruikgemaakt wordt van een labsetting of een (computer)simulatie. In dat geval
kunnen we op basis van de onderzoeksresultaten minder zeggen over situaties buiten het
onderzoek, oftewel over situaties in een real-world setting (lage externe validiteit).
STATISTISCHE VALIDITEIT
We hebben statistische validiteit gedefinieerd als de mate waarin de resultaten van een
statistische analyse nauwkeurig en goed gefundeerd zijn. Statistische validiteit gaat dus over de
GRASPLE 3
, nauwkeurigheid en juistheid van de statistische analyses.
Om de statistische validiteit van een wetenschappelijk onderzoek te beoordelen, kun je
bijvoorbeeld de volgende vragen stellen:
1. Is de gekozen analysetechniek geschikt voor beantwoording van de onderzoeksvraag?
2. Is er voldaan aan de voorwaarden/assumpties van de uitgevoerde analyse?
3. Zijn de resultaten van de analyse op de juiste manier gerapporteerd en geïnterpreteerd?
INVLOED KEUZES OP VALIDITEIT
We hebben in deze les vier verschillende vormen van validiteit besproken: begripsvaliditeit,
interne validiteit, externe validiteit en statistische validiteit. Deze vier vormen hebben ieder hun
eigen focuspunten, maar ze haken ook op elkaar in. Dit betekent dat binnen een onderzoek
gemaakte keuzes soms positief kunnen uitpakken voor de ene vorm van validiteit en
tegelijkertijd negatief voor een andere vorm van validiteit.
Dit geldt met name voor de interne en de externe validiteit, zoals we ook in deze les gezien
hebben. Wanneer er bijvoorbeeld bij een experiment (hoge interne validiteit) gebruikgemaakt
wordt van een labsetting of een (computer)simulatie, kunnen we op basis van de
onderzoeksresultaten minder zeggen over situaties buiten het onderzoek (lage externe
validiteit).
Om de kwaliteit van een wetenschappelijk artikel te beoordelen kijken we naar de vier
validiteiten samen.
Correlatie en regressie
VOS Voorkennis
Theorie
In een eerdere cursus ben je het begrip correlatie tegengekomen. Het gaat hierbij in het
algemeen om de samenhang tussen twee variabelen. Voor de sterkte van de samenhang
kunnen we, afhankelijk van bepaalde kenmerken van de variabelen, verschillende statistische
maten gebruiken. In deze les besteden we aandacht aan de correlatiecoëfficiënt die ook bekend
staat als de Pearson's r voor twee numerieke variabelen van minimaal interval meetniveau. Er
zijn ook andere maten voor samenhang tussen variabelen, maar deze worden niet in deze les
behandeld.
Correlatiecoëfficiënt = De correlatiecoëfficiënt is een gestandaardiseerde maat voor de sterkte
van de lineaire relatie tussen twee variabelen.
CORRELATIECOËFFICIËNT
Het is lastig om de sterkte van een relatie op het oog te beoordelen. Het is daarom handig om de
(lineaire) samenhang tussen twee variabelen van een gestandaardiseerde waarde te voorzien.
Met die waarde kun je dan de richting en de sterkte van een lineaire relatie kwantificeren en
beoordelen. Dit getal is voor de lineaire samenhang de Pearson product-
momentcorrelatiecoëfficiënt of kortweg de correlatiecoëfficiënt.
De correlatiecoëfficiënt r is een gestandaardiseerde maat en daarom kun je de correlaties
tussen variabelen vergelijken.
Hoe interpreteren we de correlatiecoëfficiënt?
GRASPLE 4
GRASPLE
Bayes
VOS Voorkennis
Theorie
BAYESIAANSE HYPOTHESE EVALUATIE EN DE BAYES FACTOR
In de klassieke statistische toetsprocedure volg je de volgende stappen:
Onderzoeksvraag > Nulhypothese (H0) > Toets > Verwerpen H0 of niet verwerpen H0 (op
basis van p-waarde)
Dit is de procedure die bekend staat onder de naam Null Hypothesis Significance Testing
(NHST). NHST impliceert dat onderzoekers uiteindelijk concluderen "er is niets"
(als p> αα en de nulhypothese niet wordt verworpen) of "er is iets" (als p <≤ αα en de
nulhypothese wel wordt verworpen). En bij een "er is iets" spreken we van significant resultaat.
Vaak rapporteert men dan ook een effectgrootte (bijvoorbeeld r of Cohens's d) als schatting
voor het effect waarin men geinteresseerd is.
Met de Bayesiaanse procedure kan je meerdere hypotheses tegelijkertijd evalueren. Je kan dan
uitbreidingen van modellen met elkaar vergelijken om tot het best passende model te komen.
Hiervoor vergelijk je de Bayes Factoren voor elke hypothese met elkaar. In deze les laten we zien
hoe de je de evaluatie van hypotheses volgens de Bayesiaanse procedure uitvoert.
Bij Bayesiaanse hypothese toetsing gaan we na hoeveel ondersteuning, uitgaande van de
steekproefgegevens, er is voor de verschillende hypotheses. Deze maat voor relatieve steun is
de Bayes Factor (BF).
De Bayes Factor (BF) geeft aan hoeveel de ene hypothese meer steun krijgt in verhouding tot
een andere hypothese.
Stel we evalueren de nulhypothese H0: μ1=μ2versus een alternatieve hypothese HA: μ1≠μ2. De
Bayes Factor die hierbij wordt berekend is BFH0HA=5. Een BF = 5 betekent dan dat er vijf keer
meer steun is voor H0 dan voor HA.
De Bayes Factor is dus een maat voor de relatieve hoeveelheid steun voor de ene hypothese
versus de andere. Wat betekent dat eigenlijk? Voor antwoord op deze vraag moeten we weten
waar de steun in de data voor een hypothese door bepaald wordt. De hoeveelheid steun die we
vinden in de data (steekproef) voor een hypothese is afhankelijk van twee zaken:
(1) De fit van de hypothese voor de data, ofwel hoe goed past de hypothese bij de data, en
(2) De specificiteit van de hypothese, ofwel hoeveel mogelijkheden worden met de hypothese
uitgesloten.
Er zijn geen 'objectieve' grenswaarden zoals we die kennen bij het gebruik van p-waarden voor
het beoordelen van de hoeveelheid steun voor een hypothese. We weten
dat BFH0 HA=60 betekent dat er 60 keer meer steun is voor H0, en we weten
GRASPLE 1
, dat BFH0 HA=1.5betekent dat er maar 1,5 keer meer steun is voor H0. De hypothese waarvoor
de BF = 60 is er dus meer steun dan voor de hypothese waarvoor de BF = 1.5
Validiteit
VOS Voorkennis
Theorie
BEGRIPSVALIDITEIT
We hebben begripsvaliditeit gedefinieerd als de mate waarin de gebruikte meetinstrumenten
slagen in het meten van de concepten/constructen die onderzocht worden. In experimenteel
onderzoek gaat het daarnaast om de mate waarin de bedoelde manipulatie geslaagd is.
Begripsvaliditeit gaat dus over de overeenstemming tussen de operationalisatie (door middel
van het meetinstrument) en het theoretisch begrip (zoals beschreven in de conceptuele
definitie).
1. Om de begripsvaliditeit van een wetenschappelijk onderzoek te beoordelen, kun je dus
bijvoorbeeld de volgende vragen stellen:
2. Welke theoretische begrippen worden er gemeten of gemanipuleerd in het onderzoek
(conceptuele definitie)?
3. Met welke meetinstrumenten worden de theoretische begrippen gemeten (operationele
definitie)?
4. Meet het gekozen meetinstrument wel wat het beoogt te meten?
5. Is er een betrouwbaarheidsanalyse uitgevoerd? Zo ja, wat is hiervan het resultaat?
Daarnaast heb je in eerdere cursussen geleerd dat je meer te weten kunt komen over de
begripsvaliditeit door te kijken naar de inhoudsvaliditeit, indruksvaliditeit, convergente validiteit,
divergente validiteit en criteriumvaliditeit. Deze kennis kun je gebruiken bij het beoordelen van
de begripsvaliditeit van een wetenschappelijk onderzoek, maar we gaan daar in deze les verder
niet op in.
INTERNE VALIDITEIT
We hebben interne validiteit gedefinieerd als de mate waarin de onderzoeksmethode
alternatieve verklaringen voor een effect kan uitsluiten. Dit ‘effect’ kan betrekking hebben op
zowel een relatie tussen variabelen als een verschil tussen groepen. Interne validiteit gaat dus
over de mogelijkheid om te bepalen of er sprake is van een causaal verband (oorzaak-
gevolgrelatie).
In voorgaande cursussen heb je geleerd dat er drie voorwaarden zijn om te kunnen spreken van
een causaal verband. Om te bepalen of aan deze voorwaarden wordt voldaan kun je de
volgende vragen stellen:
1. Is er sprake van een relatie tussen twee of meer variabelen?
2. Gaat de oorzaak vooraf aan het gevolg (in tijd)?
3. Kunnen we andere verklaringen voor het gevonden verband uitsluiten?
Met experimenteel onderzoek kunnen we in principe een hogere interne validiteit realiseren dan
met kwalitatief of correlationeel onderzoek. Een experiment kunnen we namelijk uitvoeren in
een gecontroleerde setting, waardoor we alternatieve verklaringen zo veel mogelijk kunnen
GRASPLE 2
, uitsluiten. We kunnen dan bepalen of er sprake is van een causaal verband tussen de
afhankelijke en de onafhankelijke variabele.
Om de interne validiteit van een wetenschappelijk onderzoek te beoordelen kun je dus ook de
volgende vraag stellen: ‘Is er gebruikgemaakt van een experiment?’. Is het antwoord op deze
vraag ‘ja’ en is het experiment goed uitgevoerd, dan heeft het onderzoek een hoge interne
validiteit.
EXTERNE VALIDITEIT
We hebben externe validiteit gedefinieerd als de mate waarin de onderzoeksresultaten
gegeneraliseerd kunnen worden naar andere groepen, tijden en situaties. Externe validiteit gaat
dus over de mogelijkheid om op basis van de onderzoeksresultaten iets te zeggen over
situaties buiten het onderzoek, oftewel over situaties in een real-world setting.
Om de externe validiteit van een wetenschappelijk onderzoek te beoordelen, kun je bijvoorbeeld
de volgende vragen stellen:
1. Welke populatie wordt er onderzocht?
2. Welke steekproefmethode is er gebruikt?
3. Hoe representatief is de steekproef voor de populatie?
4. Wat kunnen we op basis van de onderzoeksresultaten zeggen over situaties in een real-
world setting?
Ook al is een steekproef groot, dit maakt hem nog niet representatief. De representativiteit hangt
af van de gebruikte steekproefmethode.
Als je onderzoeksresultaten wilt generaliseren, zijn aselecte steekproefmethoden geschikter dan
selecte steekproefmethoden. In het algemeen is een steekproef op basis van een aselecte
steekproefmethode (zoals een enkelvoudige aselecte steekproef) representatiever, omdat
respondenten hierbij willekeurig (op toevalsbasis) geselecteerd worden. Dit betekent dat
iedereen in de populatie evenveel kans heeft om deel uit te maken van de steekproef. Daarom
kunnen resultaten beter gegeneraliseerd worden naar de populatie dan wanneer je gebruik zou
maken van een selecte steekproefmethode.
Interne en externe validiteit staan los van elkaar. Als de interne validiteit laag is, kan de externe
validiteit nog steeds vrij hoog zijn (en omgekeerd).
Bijvoorbeeld: een correlationele studie met een representatieve steekproef kan niet gebruikt
worden om causale conclusies te trekken (lage interne validiteit), maar de resultaten kunnen wel
gegeneraliseerd worden (hoge externe validiteit).
En andersom: een experimentele studie kan wél gebruikt worden om causale conclusies te
trekken (hoge interne validiteit), maar bij een niet-representatieve steekproef kunnen de
resultaten niet gegeneraliseerd worden (lage externe validiteit).
Ook komen experimenten soms niet overeen met de situatie in de werkelijkheid, bijvoorbeeld
wanneer er gebruikgemaakt wordt van een labsetting of een (computer)simulatie. In dat geval
kunnen we op basis van de onderzoeksresultaten minder zeggen over situaties buiten het
onderzoek, oftewel over situaties in een real-world setting (lage externe validiteit).
STATISTISCHE VALIDITEIT
We hebben statistische validiteit gedefinieerd als de mate waarin de resultaten van een
statistische analyse nauwkeurig en goed gefundeerd zijn. Statistische validiteit gaat dus over de
GRASPLE 3
, nauwkeurigheid en juistheid van de statistische analyses.
Om de statistische validiteit van een wetenschappelijk onderzoek te beoordelen, kun je
bijvoorbeeld de volgende vragen stellen:
1. Is de gekozen analysetechniek geschikt voor beantwoording van de onderzoeksvraag?
2. Is er voldaan aan de voorwaarden/assumpties van de uitgevoerde analyse?
3. Zijn de resultaten van de analyse op de juiste manier gerapporteerd en geïnterpreteerd?
INVLOED KEUZES OP VALIDITEIT
We hebben in deze les vier verschillende vormen van validiteit besproken: begripsvaliditeit,
interne validiteit, externe validiteit en statistische validiteit. Deze vier vormen hebben ieder hun
eigen focuspunten, maar ze haken ook op elkaar in. Dit betekent dat binnen een onderzoek
gemaakte keuzes soms positief kunnen uitpakken voor de ene vorm van validiteit en
tegelijkertijd negatief voor een andere vorm van validiteit.
Dit geldt met name voor de interne en de externe validiteit, zoals we ook in deze les gezien
hebben. Wanneer er bijvoorbeeld bij een experiment (hoge interne validiteit) gebruikgemaakt
wordt van een labsetting of een (computer)simulatie, kunnen we op basis van de
onderzoeksresultaten minder zeggen over situaties buiten het onderzoek (lage externe
validiteit).
Om de kwaliteit van een wetenschappelijk artikel te beoordelen kijken we naar de vier
validiteiten samen.
Correlatie en regressie
VOS Voorkennis
Theorie
In een eerdere cursus ben je het begrip correlatie tegengekomen. Het gaat hierbij in het
algemeen om de samenhang tussen twee variabelen. Voor de sterkte van de samenhang
kunnen we, afhankelijk van bepaalde kenmerken van de variabelen, verschillende statistische
maten gebruiken. In deze les besteden we aandacht aan de correlatiecoëfficiënt die ook bekend
staat als de Pearson's r voor twee numerieke variabelen van minimaal interval meetniveau. Er
zijn ook andere maten voor samenhang tussen variabelen, maar deze worden niet in deze les
behandeld.
Correlatiecoëfficiënt = De correlatiecoëfficiënt is een gestandaardiseerde maat voor de sterkte
van de lineaire relatie tussen twee variabelen.
CORRELATIECOËFFICIËNT
Het is lastig om de sterkte van een relatie op het oog te beoordelen. Het is daarom handig om de
(lineaire) samenhang tussen twee variabelen van een gestandaardiseerde waarde te voorzien.
Met die waarde kun je dan de richting en de sterkte van een lineaire relatie kwantificeren en
beoordelen. Dit getal is voor de lineaire samenhang de Pearson product-
momentcorrelatiecoëfficiënt of kortweg de correlatiecoëfficiënt.
De correlatiecoëfficiënt r is een gestandaardiseerde maat en daarom kun je de correlaties
tussen variabelen vergelijken.
Hoe interpreteren we de correlatiecoëfficiënt?
GRASPLE 4