Statistiek= “de wetenschap van het verzamelen, ordenen en interpreteren
van numerieke feiten, die we data noemen.”
Belangrijke zaken voor de toepassing van statistiek ("Toegepaste statistiek"):
1. Het selecteren van een steekproef uit een populatie
2. Bepalen of een steekproef representatief is
3. Beschrijvende of inferentiële statistiek
4. Meetniveaus (NOIR) en soorten variabelen (categorisch/kwantitatief)
5. Selecteren van de juiste statistische analyse
6. Experimenteel versus niet-experimenteel onderzoeksdesign
Regression to the mean= Het is een statistisch feit dat extreme scores bij herhaalde tests
vaak minder extreem worden, een fenomeen dat bekend staat als regressie naar het
gemiddelde (Kruger, Savitsky, & Gilovich, 1999). Regressie naar het gemiddelde kan
zowel therapeuten als patiënten doen geloven dat een nutteloze behandeling effectief is
(Gilovich, 1991).”
,Statistiek bestaat uit een reeks methoden voor het verkrijgen en analyseren van gegevens,
om:
1. Ontwerpen [onderzoeken die]
2. Te beschrijven [gegevens om]
3. Conclusies trekken [op basis van deze gegevens]
Beschrijvende statistiek= Beschrijvende statistiek vat steekproef- of populatiegegevens
samen met cijfers, tabellen en grafieken
Inferentiële statistiek= Inferentiële statistiek doet voorspellingen over populatieparameters
op basis van een (willekeurige) steekproef van gegevens.
Onderzoek doen aan de hand van gegevens: observatie van kenmerken
● Populatie: het totale aantal deelnemers dat relevant is voor de onderzoeksvraag
○ Voorbeeld populatieparameter: gemiddeld aantal uren zelfstudie per week
van alle studenten.
● Steekproef: een deelverzameling van de populatie waarover gegevens worden
verzameld
○ Voorbeeld steekproefstatistiek: gemiddeld aantal uren zelfstudie per week
van een willekeurig geselecteerde steekproef van 800 studenten
● Goede gegevens zijn nodig om de onderzoeksvraag te beantwoorden:
○ Betrouwbaarheid (nauwkeurigheid)
○ Validiteit (Bias
Beschrijvende statistiek
Variabele: meet kenmerken die tussen proefpersonen kunnen verschillen
● Soorten: gedrags-, stimulus-, proefpersoon- en fysiologische variabelen
● Meetschalen (NOIR):
○ Categorisch/kwalitatief
■ Nominaal: ongeordende categorieën (oogkleur, biologisch geslacht)
■ Ordinaal: geordende categorieën (oneens/neutraal/eens)
○ Kwantitatief/numeriek
■ Interval: gelijke afstand tussen opeenvolgende waarden (°C)
■ Ratio: gelijke afstand en echt nulpunt (K)
● Bereik:
○ Discreet: ondeelbare meeteenheid (# broers/zussen)
○ Continu: oneindig deelbare meeteenheid (lichaamslengte)
,In beschrijvende statistiek zijn drie dimensies van
belang:
● Centrale tendens - ”doorsnee waarneming"
- Maatstaven voor centrale tendens:
gemiddelde, modus, mediaan ...
● Verspreiding - "variabiliteit in waarnemingen"
- Maatstaven voor spreiding:
standaardafwijking, variantie,
interkwartielafstand
● Positie - "relatieve positie van de waarneming(en)"
- Geeft informatie over relatieve posities van
waarnemingen: percentiel, kwartiel, ..
Inferentiële statistiek
Doel: betrouwbare en geldige uitspraken over de populatie op basis van een steekproef:
- De steekproefstatistiek mag niet afwijken van de populatieparameter
Problemen:
● Steekproeffout - "natuurlijke (willekeurige) steekproefvariatie"
● Steekproefbias - "selectieve steekproef"
● Responsbias - "onjuist antwoord"
● Non-responsbias - "selectieve deelname"
Belangrijk verschil tussen problemen met betrekking tot betrouwbaarheid (fout) en
validiteit (bias).
Oplossing:
“Een willekeurige (of andere waarschijnlijkheids)steekproef van voldoende omvang
die data genereert voor iedereen die benaderd is, met correcte antwoorden op alle
items voor alle proefpersonen.”
Soorten verdelingen
Centrale limietstelling voor steekproevenverdeling
, “Gegeven een populatie [van individuele X-scores] met een gemiddelde van μ en een
standaardafwijking van σ, heeft de steekproevenverdeling van het gemiddelde [M] een
gemiddelde van μ en een standaardafwijking [meestal de "[populatie] standaardfout"
genoemd, σM ] van en benadert deze een normale verdeling naarmate de
steekproefomvang waarop deze is gebaseerd, N, oneindig wordt. (p. 189)”
Relatie tussen populatie-, steekproef-, en steekproevenverdeling oefenen:
https://onlinestatbook.com/stat_sim/sampling_dist/index.html
Soorten kansverdelingen- I
● (Standaard) normale verdeling z-statistiek
○ Steekproefverdeling voor proporties voor H0 .
○ (Steekproefverdeling voor het gemiddelde wanneer H0 geldt en wanneer de
standaardafwijking van de populatie bekend is)
● Student's T-verdeling(en) t-statistiek
○ Steekproefverdeling voor het gemiddelde wanneer H0 geldt en wanneer de
populatiestandaardafwijking onbekend is.
○ Steekproefverdeling voor regressiecoëfficiënt(en) voor H0 .
● Chi-kwadraatverdeling(en) χ2 -statistiek
○ Steekproefverdeling voor gekwadrateerde afwijkingen (in frequenties) van
categorische variabelen wanneer H0 geldt.
● Fisher-verdeling(en) F-statistiek
○ Steekproefverdeling voor ANOVA omnibus-test van gemiddelden wanneer H0
geldt.
→ deze zijn allemaal univariaat
Scheefheid van
(kans)verdelingen
neg scheef = links scheef