HC 7 (22-5)
Beroepscode van NIP
- Integer
- Respectvol
- Verantwoordelijk
- Deskundig
Th eoretisch con cept = abstract kenmerk, eigenschap, variabele, construct, begrip, trait or
state
• Lengte (geregisseerde meting in cm)
• Gender (vragen naar man / vrouw / non-binair / anders)
• Rekenvaardigheid (aantal goed op rekenproef)
• Intelligentietest (IQ-score)
• Cognitief potentieel (CITO)
• Prestatie-motivatie (score op onderdeel van PMTK)
• Integriteit (score op integriteitstest)
Operation alisatie = de beschrijving van handelingen (operaties) die nodig zijn om de
bedoelde eigenschap te meten
Model k lassiek e testth eorie
- Model voor testscores = X (testscore) = T (ware score) + E
(toevallige meetfout)
- Invloeden: persoon, omgeving, test, testleider POTT
Testscores (meetwaarden X)
1. Systematische invloeden (wat test beoogt te meten; systematische meetfout)
(validiteit)
2. Toevallige invloeden (betrouwbaarheid)
B etrou w baarh eid = mate van nauwkeurigheid, mate van herhaalbaarheid
Betrouwbare meting -> afwezigheid toevallige meetfout
Validiteit = mate waarin je meet wat je wilt meten
valide meting -> afwezigheid van toevallige meetfout en
ook afwezigheid systematische meetfout
Aannames toevallige meetfout
, 1. Bij replicaties is gemiddelde van E gelijk aan 0 (voor zowel individu als in de
populatie) want soms is je score hoger dan T en soms lager dus gemiddeld is die 0
2. Meetfout E correleert niet met ware score T: -> meetfout komt uitsluitend
door toevallige invloeden tot stand. Want is gw toevallig als je prc gemiddeld scoort
meestal scoor je of lager of hoger dan vorige keer
3. Meetfout E van verschillende tests correleren niet: -> meetfout komt
uitsluitend door toevallige invloeden tot stand. Je kan op ene test kleine meetfout
maken en andere grotte meetfout want het bestaat uit toeval.
Je kan van te voren niet de meetfout bepalen, maar kan wel iets zeggen over hoe groot die
gemiddeld is bij een groep
Stan daardm eetfou t
- Standard error of measurement (SE, SEM)
- Spreiding van de toevallige meetfout bij oneindig aantal replicaties = altijd oneindig
want definitie begrip
- Geeft een indicatie van de nauwkeurigheid van de meting in een populatie
- De standaardmeetfout is identiek voor alle individuen waarbij je het instrument
afneemt (= aanname) stel je doet reken toets geld voor mensen die goed er in zijn
maar ook voor mensen die er slecht in zijn
- Met de standaardmeetfout kunnen we het betrouwbaarheidsinterval afleiden voor de
ware score
-
Se = standaard error
Sx = spreiding testscores
rxx = betrouwbaarheid
Cr iter ia betr ouw baar heid
1. Worden er gegevens over de betrouwbaarheid verstrekt?
2. Zijn de resultaten voldoende, gelet op het beoogde type beslissingen dat met behulp
van de test moet worden genomen?
3. Wat is de kwaliteit van het onderzoek naar de betrouwbaarheid?
Testscore is ware score plus toevallig fout: Xij = Ti + Eij (Individu)
,Testvarian tie spreiding in testscores is ware scorevariantie plus errorvariantie: S2X = S2T +
S2E (naar grotere populatie)
S2/x = testvariantie (spreiding in testscores)
S2/t = ware scorevariantie (ware spreiding scores)
S 2/E = errorvariantie (error spreiding)
B etrou w baarh eid is verhouding tussen ware scorevarientie en testvariantie:
Rxx ‘ = betrouwaarheid
Is het 1 dan is die perfect
Probleem:
- Variantie van ware scores S2T is onbekend (want je hebt geen idee hoe slim iemand
echt is je hebt alleen die testscores, hiervoor heb je de schatting betrouwbaarheid
hieronder)
➔ betrouwbaarheid testscore moeten we daarom schatten
Schatting betrouwbaarheid
1. Test-h ertest betrou w baarh eid (doet een test en week later zelfde test)
� Maakt gebruik van het idee dat testscores over de tijd hetzelfde zijn
� Correlatie rx1, x2 tussen testafnames X1 en X2 als schatting voor de betrouwbaarheid
van schoolscores (de correlatie tussen tijdstip 1 en tijdstip 2 van testscores)
� Problemen:
Leereffect
Korte tijd tussen afnames -> herinnering, ervaring
Lange tijd tussen afnames -> wijziging ware scores
� Gevolg: onder- of overschatting van betrouwbaarheid
, 2. Paralleltest m eth ode (alternate form)
� Maakt gebruik van het idee dat twee gelijkwaardige versies van dezelfde test
dezelfde scores moet opleveren (versie A en B test, met andere vragen maar
ongeveer zefde score moet eruit komen want word zelfde gevraagd)
� Correlatie rXX’ tussen parallelle tests X en X’ als schatting voor de betrouwbaarheid
� Probleem:
Strikte parallelle tests zijn moeilijk te realiseren (dat test echt net zo moeilijk of
makkelijk zijn) (inhoud moeilijkheid en vorm zelfde)
� Gevolg: onderschatting van betrouwbaarheid
3. Split-h alf m eth ode (splitsingsmethode)
� Maakt gebruik van het idee dat twee helften van een test dezelfde scores op moet
leveren (je hebt dus 1 test en de ene helft maakt eerste deel test en andere helft
maakt tweede deel test)
� (Gecorrigeerde) correlatie rH1H2 tussen parallelle testhelften als schatting voor
betrouwbaarheid (correlatie zegt dus iets over hoe goed beide helften in staat zijn
om hetzelfde te meten) (het moet wel achteraf gecorriceerd worden)
� Probleem:
Hoe test in twee delen splitsen? (want moet beide wel prc zelfde meten wat lastig
is) oplossing -> de test oneindig vaak opslitst in 2 helften, en voor elke opslitsing
de correlatie bepaald en uiteindelijk een soort gemiddelde krijgt van al die
correlaties, en het gemiddelde van al die correlaties dat is nou de Cr on bach’s
alfa, beste schatting die je k an r ealiser en
� Elke andere tweedeling levert een andere schatting van de betrouwbaarheid
4. Cron bach ’s alfa (coëfficiënt alpha) (gemiddelde van alle mogelijke splithalf
betrouwbaarheid coeficienten) Dus kan je geen goede split-half maken want je kan
test slecht opdelen.. dan is cronbach’s alfa goed alternatief, wel oppassen met
interpretatie
� Maakt gebruik van het idee dat elk item van een schaal een indicatie is voor het te
meten theoretische concept (alle items zijn homogeen, ze maken allemaal op
dezelfde gebruik van het kenmerk wat ik wil meten, en kan je elke opslitsing ook
gebruiken als 2x een schatting van het begrip dat ik wil meten)
Beroepscode van NIP
- Integer
- Respectvol
- Verantwoordelijk
- Deskundig
Th eoretisch con cept = abstract kenmerk, eigenschap, variabele, construct, begrip, trait or
state
• Lengte (geregisseerde meting in cm)
• Gender (vragen naar man / vrouw / non-binair / anders)
• Rekenvaardigheid (aantal goed op rekenproef)
• Intelligentietest (IQ-score)
• Cognitief potentieel (CITO)
• Prestatie-motivatie (score op onderdeel van PMTK)
• Integriteit (score op integriteitstest)
Operation alisatie = de beschrijving van handelingen (operaties) die nodig zijn om de
bedoelde eigenschap te meten
Model k lassiek e testth eorie
- Model voor testscores = X (testscore) = T (ware score) + E
(toevallige meetfout)
- Invloeden: persoon, omgeving, test, testleider POTT
Testscores (meetwaarden X)
1. Systematische invloeden (wat test beoogt te meten; systematische meetfout)
(validiteit)
2. Toevallige invloeden (betrouwbaarheid)
B etrou w baarh eid = mate van nauwkeurigheid, mate van herhaalbaarheid
Betrouwbare meting -> afwezigheid toevallige meetfout
Validiteit = mate waarin je meet wat je wilt meten
valide meting -> afwezigheid van toevallige meetfout en
ook afwezigheid systematische meetfout
Aannames toevallige meetfout
, 1. Bij replicaties is gemiddelde van E gelijk aan 0 (voor zowel individu als in de
populatie) want soms is je score hoger dan T en soms lager dus gemiddeld is die 0
2. Meetfout E correleert niet met ware score T: -> meetfout komt uitsluitend
door toevallige invloeden tot stand. Want is gw toevallig als je prc gemiddeld scoort
meestal scoor je of lager of hoger dan vorige keer
3. Meetfout E van verschillende tests correleren niet: -> meetfout komt
uitsluitend door toevallige invloeden tot stand. Je kan op ene test kleine meetfout
maken en andere grotte meetfout want het bestaat uit toeval.
Je kan van te voren niet de meetfout bepalen, maar kan wel iets zeggen over hoe groot die
gemiddeld is bij een groep
Stan daardm eetfou t
- Standard error of measurement (SE, SEM)
- Spreiding van de toevallige meetfout bij oneindig aantal replicaties = altijd oneindig
want definitie begrip
- Geeft een indicatie van de nauwkeurigheid van de meting in een populatie
- De standaardmeetfout is identiek voor alle individuen waarbij je het instrument
afneemt (= aanname) stel je doet reken toets geld voor mensen die goed er in zijn
maar ook voor mensen die er slecht in zijn
- Met de standaardmeetfout kunnen we het betrouwbaarheidsinterval afleiden voor de
ware score
-
Se = standaard error
Sx = spreiding testscores
rxx = betrouwbaarheid
Cr iter ia betr ouw baar heid
1. Worden er gegevens over de betrouwbaarheid verstrekt?
2. Zijn de resultaten voldoende, gelet op het beoogde type beslissingen dat met behulp
van de test moet worden genomen?
3. Wat is de kwaliteit van het onderzoek naar de betrouwbaarheid?
Testscore is ware score plus toevallig fout: Xij = Ti + Eij (Individu)
,Testvarian tie spreiding in testscores is ware scorevariantie plus errorvariantie: S2X = S2T +
S2E (naar grotere populatie)
S2/x = testvariantie (spreiding in testscores)
S2/t = ware scorevariantie (ware spreiding scores)
S 2/E = errorvariantie (error spreiding)
B etrou w baarh eid is verhouding tussen ware scorevarientie en testvariantie:
Rxx ‘ = betrouwaarheid
Is het 1 dan is die perfect
Probleem:
- Variantie van ware scores S2T is onbekend (want je hebt geen idee hoe slim iemand
echt is je hebt alleen die testscores, hiervoor heb je de schatting betrouwbaarheid
hieronder)
➔ betrouwbaarheid testscore moeten we daarom schatten
Schatting betrouwbaarheid
1. Test-h ertest betrou w baarh eid (doet een test en week later zelfde test)
� Maakt gebruik van het idee dat testscores over de tijd hetzelfde zijn
� Correlatie rx1, x2 tussen testafnames X1 en X2 als schatting voor de betrouwbaarheid
van schoolscores (de correlatie tussen tijdstip 1 en tijdstip 2 van testscores)
� Problemen:
Leereffect
Korte tijd tussen afnames -> herinnering, ervaring
Lange tijd tussen afnames -> wijziging ware scores
� Gevolg: onder- of overschatting van betrouwbaarheid
, 2. Paralleltest m eth ode (alternate form)
� Maakt gebruik van het idee dat twee gelijkwaardige versies van dezelfde test
dezelfde scores moet opleveren (versie A en B test, met andere vragen maar
ongeveer zefde score moet eruit komen want word zelfde gevraagd)
� Correlatie rXX’ tussen parallelle tests X en X’ als schatting voor de betrouwbaarheid
� Probleem:
Strikte parallelle tests zijn moeilijk te realiseren (dat test echt net zo moeilijk of
makkelijk zijn) (inhoud moeilijkheid en vorm zelfde)
� Gevolg: onderschatting van betrouwbaarheid
3. Split-h alf m eth ode (splitsingsmethode)
� Maakt gebruik van het idee dat twee helften van een test dezelfde scores op moet
leveren (je hebt dus 1 test en de ene helft maakt eerste deel test en andere helft
maakt tweede deel test)
� (Gecorrigeerde) correlatie rH1H2 tussen parallelle testhelften als schatting voor
betrouwbaarheid (correlatie zegt dus iets over hoe goed beide helften in staat zijn
om hetzelfde te meten) (het moet wel achteraf gecorriceerd worden)
� Probleem:
Hoe test in twee delen splitsen? (want moet beide wel prc zelfde meten wat lastig
is) oplossing -> de test oneindig vaak opslitst in 2 helften, en voor elke opslitsing
de correlatie bepaald en uiteindelijk een soort gemiddelde krijgt van al die
correlaties, en het gemiddelde van al die correlaties dat is nou de Cr on bach’s
alfa, beste schatting die je k an r ealiser en
� Elke andere tweedeling levert een andere schatting van de betrouwbaarheid
4. Cron bach ’s alfa (coëfficiënt alpha) (gemiddelde van alle mogelijke splithalf
betrouwbaarheid coeficienten) Dus kan je geen goede split-half maken want je kan
test slecht opdelen.. dan is cronbach’s alfa goed alternatief, wel oppassen met
interpretatie
� Maakt gebruik van het idee dat elk item van een schaal een indicatie is voor het te
meten theoretische concept (alle items zijn homogeen, ze maken allemaal op
dezelfde gebruik van het kenmerk wat ik wil meten, en kan je elke opslitsing ook
gebruiken als 2x een schatting van het begrip dat ik wil meten)