Binomiale test: random steekproef.
Aantal trials (n) staat vast
Trials zijn onafhankelijk van elkaar
Kans op succes (p) is hetzelfde in iedere trial
𝑛
𝑃(𝑋) = ( ) 𝑝 𝑋 (1 − 𝑝)𝑛−𝑋
𝑋
𝑛 𝑛!
( )=
𝑋 𝑋! (𝑛 − 𝑋)!
o H0: De relatieve frequentie van successen in de populatie is p 0
o HA: De relatieve frequentie van successen in de populatie is niet p 0
Benadering normale distributie: als het aantal trials (n) groot is, dan wordt de binomiale distributie
benadert door de normale distributie met:
Gemiddelde = n · p zie blz. 293
Standaard deviatie: √𝑛𝑝(1 − 𝑝) zijn allebei groter dan 5
Χ² goodness-of-fit test: vergelijkt data met een kansmodel, random steekproef.
Geen categorie mag een expected frequency hebben van minder dan 1
Niet meer dan 20% van de categorieën mag een expected frequency hebben
van minder dan 5
o H0: de data is wel…
o HA: de data is niet…
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑𝑖 − 𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑𝑖 )²
𝜒2 = ∑
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑𝑖
𝑖
𝑑𝑓 = (aantal categorieën) – 1 – (aantal geschatte parameters)
Kritische waarde: boek tabel A blz. 703
Als χ² > kritieke waarde, dan P-waarde < 0.05 en verwerp de H0
Als χ² < kritieke waarde, dan P-waarde > 0.05 en verwerp niet de H0
Testen of de data past bij een binomiale distributie:
o H0: de data heeft een binomiale distributie
o HA: de data heeft geen binomiale distributie
Poisson test:
Aantal successen in stukken van tijd en ruimte
Successen zijn onafhankelijk van elkaar
De kans op ieder succes is even groot in tijd en ruimte
𝑒 −𝜇 𝜇 𝑋
𝑃(𝑋) =
𝑋!
o H0: de data heeft een Poisson distributie
o HA: de data heeft geen Poisson distributie
Als de ratio variantie : gemiddelde groter is dan 1 clumped
1
, Χ² contigency test: associatie tussen 2 categorische variabelen
Test de onafhankelijkheid tussen variabelen
Geen categorie mag een expected frequency hebben van minder dan 1
Niet meer dan 20% van de categorieën mag een expected frequency hebben
van minder dan 5
o H0: Variabele 1 en variabele 2 zijn onafhankelijk
o HA: Variabele 1 en variabele 2 zijn afhankelijk
(𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑(𝑟,𝑐)−𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑(𝑟,𝑐))²
𝜒 2 = ∑𝑖 kijk naar de tabellen
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑(𝑟,𝑐)
𝑑𝑓 = (𝑟 − 1)(𝑐 − 1)
Fisher exact test:
Test de onafhankelijkheid van 2 categorische variabelen, ook met kleine expected waardes
Vergelijkbaar met de Χ² contigency test
Wordt met de computer gedaan
𝑅 !𝑅 !𝐶 !𝐶 !
𝑃 = 2 ∑ 1 2 1 2 blz. 257
𝑎!𝑏!𝑐!𝑑!𝑛!
G-test:
Vergelijkbaar met de Χ² contigency test
Niet meer dan 20% van de cellen heeft een expected frequentie van minder dan 5
𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑(𝑟,𝑐)
Test statistiek: 𝐺 = 2 ∑𝑟𝑟𝑜𝑤=1 ∑𝑐𝑐𝑜𝑙𝑜𝑚𝑛=1 𝑂𝑏𝑠𝑒𝑟𝑣𝑒𝑑(𝑟, 𝑐) × ln ⌊ ⌋ blz. 254
𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑(𝑟,𝑐)
𝑑𝑓 = (𝑟 − 1)(𝑐 − 1)
One-sample t-test:
De variabele heeft een normale distributie
o H0: het gemiddelde van de populatie is gelijk aan 𝜇0
o HA: het gemiddelde van de populatie is niet gelijk aan 𝜇0
𝑌̅ − 𝜇0
𝑡=
𝑆𝐸𝑌̅
𝑑𝑓 = 𝑛 − 1
Test statistiek zie statistiek tabel C blz. 708
Two-sample t-test:
Elke random sample unit krijgt een andere behandeling
Normale distributie
Standaard deviatie (en variantie) van de numerieke variabele zijn voor iedere populatie
hetzelfde
o H0: 𝜇1 = 𝜇2
o HA: 𝜇1 ≠ 𝜇2
(𝑌̅1 − 𝑌̅2 ) − (𝜇1 − 𝜇2 ) (𝑢𝑖𝑡 𝐻0 )
𝑡=
𝑆𝐸𝑌̅1 −𝑌̅2
1 1
𝑆𝐸𝑌̅1 −𝑌̅2 = √𝑠𝑝2 ( + )
𝑛1 𝑛2
𝑑𝑓1 𝑠12 +𝑑𝑓2 𝑠22
𝑠𝑝 ² = (s is variantie) 𝑑𝑓1 = 𝑛1 − 1 𝑑𝑓2 = 𝑛2 − 1
𝑑𝑓1 +𝑑𝑓2
𝑑𝑓 = 𝑑𝑓1 + 𝑑𝑓2 = 𝑛1 + 𝑛2 − 2
2