Populatie, je kan onderzoek doen naar een populatie. Denk bijvoorbeeld aan alle eerstejaars
biologen.
Variabele, een variabele van je populatie is de lichaamslengte. Dit is dus een eigenschap die elk
individu in de populatie heeft.
Verdeling, je kan je afvragen hoe vaak elke mogelijke lengte voorkomt in de
populatie. Rechts zie je bijvoorbeeld een histogram van de lichaamslengte.
Parameter, een parameter is een eigenschap van de verdeling. Denk bijvoorbeeld
aan de gemiddelde lengte 𝜇 in de gehele populatie.
Schatting & parameter, we maken onderscheid tussen parameters en schattingen
van parameters door de parameters met Griekse letters aan te geven en de schattingen met
Romaanse letters aan te geven.
Schatting, schattingen zijn onzeker. Als je bijvoorbeeld kijkt naar de gemiddelde lengte 𝜇 van de
populatie eerstejaars kan je dat benaderen m.b.v. een steekproef van 10 eerstejaars. Uit deze
schatting kom het volgende: 𝑌̅ = 172,2 cm. Je kan er nu niet vanuit gaan dat 𝜇 ook gelijk is aan
172,2 cm, want 𝑌̅ is slechts een schatter van 𝜇. Voor hetzelfde geld zaten er toevallig allemaal kleine
eerstejaars in je steekproef. Een andere steekproef levert waarschijnlijk een andere schatting op.
Schattingen op basis van steekproeven zijn dus onzeker. Deze onzekerheid komt door:
- Variabiliteit in de populatie, bij een steekproef neem je maar een klein deel van deze
variatie mee.
- Meetfouten, het zou kunnen dat de 10 eerstejaars uit je steekproef juist representatief zijn
voor de populatie, maar dat je door meetfouten afwijkt.
Precisie, geeft aan hoe goed je schatting is. Het geeft aan hoe groot jouw
toevallige afwijking van de schatting is. Je vraagt je dan af hoeveel de
verschillende schattingen van elkaar verschillen als je je onderzoek
herhaalt. Als jouw metingen dicht bij elkaar zitten, zijn ze erg precies en
als ze ver uit elkaar liggen zijn ze juist onprecies. Het verschil in de
afbeelding tussen de twee precieze metingen, is dat de ene steeds op de
bulls-eye zit, terwijl de ander er consequent naast zit.
Zuiverheid/juistheid/nauwkeurigheid, geeft ook aan hoe goed je
schatting is. Een schatter is zuiver als je gemiddeld goed zit. Hierbij is het
mogelijk dat de schattingen individueel onprecies zijn.
Precisie kwantificeren, als je je precisie wil kwantificeren wil je dus
achterhalen hoeveel opeenvolgende schattingen van elkaar verschillen. Dat doe je m.b.v. een
betrouwbaarheidsinterval.
Een schatting is nutteloos als je niet vertelt hoe precies die is.
Betrouwbaarheidsinterval, ook wel bhi, is een interval rond de
schatter die je hebt uitgerekend die de eigenschap heeft dat
die waarschijnlijk de populatieparameter bevat. Een 95%-bhi voor een populatieparameter bevat
met 95% zekerheid de waarde van de parameter. Je geeft hier dus niet een puntschatter maar een
interval. Zo zou je het volgende kunnen zeggen: “op basis van de steekproef van 10 studenten is het
95%-bhi voor de gemiddelde lengte gelijk aan 172,2 ± 3,8 cm.” Waarschijnlijk ligt de gemiddelde
lengte 𝜇 tussen 168,4 en 176,0 cm (dat weet je 95% zeker).
Bhi van gemiddelden, als je iets wil zeggen over een
continue variabele in een populatie kan je dat doen
met het bhi van gemiddelden.
Bhi van proporties, als iets wil zeggen over gedrag van
een groep, bv de fractie Nederlanders die op een
bepaalde partij stemt, kan je dat doen doormiddel van
het bhi van proporties.
, Eenvoudige selecte steekproef, je kan op veel manieren je steekproef samenstellen en dat heeft
effect op het eindresultaat. Bij een eenvoudige aselecte steekproef heeft ieder individu in een
populatie dezelfde kans om in jouw steekproef terecht te komen. Als je een poll online zet en
mensen vraagt om deze in te vullen, krijg je een vrijwilligers bias en reageren alleen de personen die
hun mening kwijt willen op dat vlak. Dat geeft vaak een vertekend resultaat. Als je een eenvoudige
aselecte steekproef hebt kan je een zuivere schatting maken en ben je in staat om te kwantificeren
hoe precies je schatting is.
Goede schatter, eigenschappen van een goede schatter zijn:
- Zuiver (gemiddeld schat de schatter de populatieparameter juist)
- Consistent (hoe groter de steekproef, hoe preciezer)
- Doeltreffend (je wil de schatter zo berekenen dat het de beste manier is die er is)
Hieruit volgt dat het steekproefgemiddelde 𝑌̅ een goede schatter blijkt te zijn voor het
populatiegemiddelde 𝜇 mits de steekproef aselect is en dat de steekproefvariantie 𝑠 2 een goede
schatter voor de populatievariantie 𝜎 2 is mits de steekproef aselect is.
Soorten onderzoek, het is niet altijd even makkelijk om een aselecte steekproef uit te voeren:
- Experimenteel, bij experimenteel onderzoek heb je volledige controle over de
experimentele variabele. Hier kan je de populatie die je hebt dus random verdelen m.b.v.
een computer.
- Quasi-experimenteel, is gedeeltelijk te controleren. Denk bijvoorbeeld aan onderzoek naar
het effect van grondwaterpeil (niet te controleren) en bemestingsregime (wel te
controleren) op opbrengst van de oogst.
- Observationeel, hierbij heb je geen controle, aangezien je geen handelingen verricht. Denk
bijvoorbeeld aan onderzoek waarin je kijkt welk deel van de Nederlandse populatie een
griepsvaccin heeft gehaald en welk deel niet. Hierbij ben jij niet degene die bepaalt wie er
wel een vaccin krijgt en wie niet, maar je kijkt wie er een gehaald heeft en wie niet. Je kan
nu dus niet uitsluiten dat er iets bijzonders is met de groep die het vaccin heeft gehaald. Je
weet hier dus van te voren dat je steekproeven hoogstwaarschijnlijk niet aselect zijn en dat
er andere variabelen kunnen zijn die een rol spelen.
Eigenschappen aselecte steekproef, bij dit voorbeeld weet je het
gemiddelde en de standaarddeviatie van de populatie al, maar in het
echt komt dat natuurlijk niet voor, want dan hoef je geen steekproef
meer te doen. In dit geval kijken we naar de verdeling van de populatie
genlengtes van het menselijk genoom met 𝜇 = 2622,0 basenparen en
𝜎 = 2036,9. Als je nu een steekproef neemt met 𝑛 = 100 genen van de
betreffende populatie komt daar het volgende uit 𝑌̅ = 2411,8 en 𝑠 =
1463,5. Je ziet dat deze waardes afwijken van de werkelijke populatie.
Daarnaast zijn de resultaten van de steekproef rechtsonder in een
histogram weergegeven en rechtsboven is een histogram van de
populatie te zien. Als je nu heel vaak een steekproef met 𝑛 = 100 uit
gaat voeren, kan je een histogram maken van de steekproefgemiddelden
𝑌̅. De eigenschappen van de verdeling van het steekproefgemiddelde
zijn:
- Dat die gecentreerd is rond 𝜇 = 2622,0, omdat het
steekproefgemiddelde een zuivere schatter is voor de
populatieparameter.
- De standaarddeviatie van het steekproefgemiddelde is kleiner
dan die van de populatie. De waarde van het gemiddelde is dus
beter bepaald dan de waarde van ieder individu in de populatie.
Als je een steekproef neemt, zegt dat dus meer over het
gemiddelde van de populatie dan wanneer je 1 individu pakt.
Hoe groter je steekproef is, hoe meer informatie over de