HC1 – empirisch moment en de rol van statistiek
Redenring in statistiek
• Statistische geletterdheid (wat moet je kunnen?)
▪ Kennis (basis begrip van concepten)
- Identificeer
- beschrijf
▪ skills (het kunnen werken met statische tools
- vertalen
- interpreteren
- lezen
- verkrijgen (compute)
• statistische redenering
▪ je moet je data en statistiek begrijpen
- kunnen verklaren hoe en waarom
• statistisch denken
▪ toepassen
- welke methode moeten er gebruikt worden in een specifieke situatie
▪ kritiek
- comment en reflecteer op werk van andere
▪ evalueren
- waarde geven aan werk
▪ generaliseer
- wat betekend variatie in het grote beeld van het leven
empirische cyclus
• de componenten
▪ Observatie
- Het idee voor een hypothese
▪ Inductie = van observaties een regel maken (bv. 5 zwanen wit,
alle zwanen wit)
- Gegeneraliseerde regel
- Hypothese opstelling
▪ Deductie = van een regel op een specifiek geval (alle zwanen zijn
wit, dus Sam de zwaan is wit)
- Verwachting/voorspelling
- Operationaliseren van hypothese
▪ Testen
- Test de hypothese
- Data vergelijken met voorspelling
▪ Evaluatie
- Interpreteren van resultaten tot de hypothese
,Experiment: kop gooien
• Emperische cyclus:
▪ Observatie: een munt kan je op gooien en dan komt er soms kop en soms munt
▪ Inductie: kunnen we kijken of de munt eerlijk is, en dus even vaak kop als munt zou
kunnen laten zien
▪ Deductie:
- H0 = munt is eerlijk
- Ha = munt is niet eerlijk
- Ha = data ≠ EV
▪ Testing: kies een α en power
▪ Evaluatie: maak een beslissing
• Verdelingen
▪ Populatie verdeling = hoe de data er uit zou zien als de gehele populatie betrokken zou zijn
▪ Sample distribution = een verdeling van 1 sample
- Dus van 1 persoon die 10 keer een muntje gooit
▪ Samples distribution = een verdeling van alle samples gemiddeld
- Van iedereen die 10 keer een muntje gooit
• Binominaal distributie = een verdeling waarbij geen continu variabelen betrokken zijn
▪ Dus bij kop gooien kan je van 10 keer alleen 1 of 2 of 6 keer kop gooien en niet 6,55 keer
▪ Formule:
- n = sample size
- k = discrete kans ruimte, hoeveel groepen bv (hier is dat 10
want je gooit per sample 10 keer met de munt)
- p = de kans (op kop)
• bij een α van 0.05 neem je de kritieke grenzen bij de buitenste staarten van H0 dat samen 5%
is
▪ Bij deze verdeling zet je dan ook de H
, HC2 – redeneren in de statistiek en toetskeuze (nulhypothese
significantie testen)
Nulhypothese significantie testing
• Neyman-Pearson paradigma
▪ Fisher zei: p-waarde is een indicatie voor het effect
- Dus volgens hem was een hele kleine p-waarde dat er heel erg iets aan de hand is
▪ Neyman en Pearson veranderde dit beeld in grens d.m.v. α, kritieke grenzen
• H0 vs. Ha
H0 HA
Sceptische point of view Niet sceptisch
Geen effect Effect
Geen voorkeur Voorkeur
Geen correlatie Correlatie
Geen verschil Verschil
• Frequentisten kans = een objectieve kans, de relatieve frequentie op de lange termijn
• Standard error = 95% confidence interval
▪ Lowerbound = mean – 1.96 * SE
▪ Upperbound = mean – 1.96 * SE
∑ 𝑌𝑖 −𝑚𝑒𝑎𝑛
▪ s= √ 𝑛−1
▪
bij een standard error van 95% zal 5% van de data buiten de mean liggen
• decision table
▪ α (alpha)
- incorrect
verwerpen van H0
- type 1 error, valse
positieve
- meestal 5% (0.05)
- verdeling hangt af van sample size
▪ Power
- Correct H0 verwerpen
- True positive
- Power = 1- beta
- Meestal 80% genomen
- Hangt af van sample size
- De werkelijke power wordt groter naarmate alpha groter wordt.
- De werkelijke power wordt groter naarmate het verschil tussen H0_kans en HA_kans
groter wordt.