MODULE 1 BIVARIATE ANALYSE, KRUISTABEL
- Samenhang twee kwalitatieve variabelen met kruistabellen of staafdiagrammen
Pearson X2-grootheid bij verdeling kwalitatieve variabelen m.b.v. frequenties
1. Pearson X2- grootheid met gegeven univariate verdeling (alle uitkomsten gelijke kansen)
(𝑂𝐾 −𝐸𝐾 )2
- 𝑌 = ∑𝐾
𝐾=1 𝐸𝐾
~ 𝑥 2 (𝐾 − 1) | df = k-1
2
- P-waarde: P ( Y > 𝑥𝐾−1, 𝑎) = 𝑎
1) Formuleer nulhypothese H0: p1 = p2 = p3 = … H1: geen uniformiteit
2) Bereken verwachte frequenties E1 = np1 = … E2 = … E3 = …
3) Vergelijk waargenomen en verwachte freq. O1 - E1 = … O2 - E2 = … O 3 - E3 = …
2
4) Uitvoeren toets en wel of niet verwerpen Verwerp H0 : Yobs > 𝑥𝐾−1, 𝑎
➢ X2-waarde opzoeken in R met qchisq (1-alpha, df = n-1)
2. Pearson X2-grootheid met gegeven bivariate verdeling (gegeven verdeling)
(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2
- 𝑌 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 𝐸𝑖𝑗
~ 𝑥 2 (𝑟𝑐 − 1) | df =rc -1
1) Formuleer hypotheses H0: alle pij zoals tabel, H1 niet alle pij zoals tbl
2) Bepaal verwachte frequenties Eij = npij = …
3) Vergelijk waargenomen en verwachte freq. Oij – Eij = …
2
4) Toets uitvoeren en wel of niet verwerpen Verwerp H0: Yobs > 𝑥𝑟𝑐−1, 𝑎
Pearson X2-grootheid in toets veronderstelde onafhankelijkheid (bivariate)
(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2
- 𝑌 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 𝐸𝑖𝑗
~ 𝑥 2 [(𝑟 − 1)(𝑐 − 1)] | df =(r - 1)(c - 1)
• Verlies vrijheidsgraden doordat marginale kansen worden geschat
1) Formuleren hypotheses H0: X en Y onafhankelijk, H1: X en Y afhankelijk
𝑂
2) Schat marginale en gezamenlijke kansen 𝑝̂𝑖 = 𝑛𝑖, 𝑝̂𝑖𝑗 = 𝑝̂ 𝑖 × 𝑝̂ 𝑖
𝑂 ∙𝑂
3) Bereken geschatte verwachte frequenties 𝐸̂𝑖𝑗 = 𝑛𝑝̂𝑖𝑗 = 𝑛𝑝̂𝑖 𝑝̂𝑗 = 𝑖 𝑛 𝑗
2
4) Toets uitvoeren en wel of niet verwerpen Verwerp H0: Yobs > 𝑥(𝑟−1)(𝑐−1), 𝑎
Kruistabel bijzonderheden
1. Analyse kruistabel in R: table + chisq.test(tbl) of Crosstable
2. Yates of continuïteitscorrectie: onderzoek onafhankelijkheid bij 2 x 2-tabellen
1
(|𝑂𝑖𝑗 −𝐸𝑖𝑗 |− )2
- 𝑌𝑌𝑎𝑡𝑒𝑠 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 2
~ 𝑥 2 (1)
𝐸𝑖𝑗
3. Fisher’s exacte toets: onderzoek onafhankelijkheid bij 2 x 2-tabellen met Eij < 5
- Overschrijdingskans (p-waarde) vergeleken met significantieniveau (𝑎)
- p < 𝑎 : verwerpen H0 op significantieniveau 𝑎 - significante samenhang
4. Aard samenhang: beschrijven op basis van onder- en oververtegenwoordiging
- Oververtegenwoordiging: O11 – E11 > 0 - relatief veel
- Ondervertegenwoordiging: O12 – E12 < 0 – verhoudingsgewijs weinig
5. Mate samenhang: maatstaven sterkte met phi ɸ en Cramèrs V
, 2
𝑥𝑜𝑏𝑠
- 2 x 2-tabellen: ɸ tussen 0-1, Pearson’s correlatiëcoefficiënt r = 𝜙 = √ 𝑛
2
𝑥𝑜𝑏𝑠
- Grotere tabellen Cramèrs V: 𝑉 = √
𝑛×min(𝑟−1,𝑐−1)
- In R samenhang met phi, Cramèrs V of rij- en kolompercentages ((O - E) / E)
6. Gezamenlijke kansverdeling weergeven in tabel
- Marginale kansverdeling: optellen gezamenlijke kansen (rij en kolom )
- Voorwaardelijke kansverdeling: gezamenlijke kans / marginale kans
- Conditionele verdeling: onafhankelijk wanneer f(y|X=x) = f(y)
- Factoriseerbaarheid: onafhankelijk wanneer f(y, x) = f(y|X =x) * f(x) = f(y) * f(x)
𝑝𝑠(1−𝑝𝑠)
7. Betrouwbaarheidsintervalschatting populatieproportie: 𝑝𝑠 ± 𝑍𝑎/2 √ 𝑛
8. Pearson’s X2 lineair afhankelijk van steekproefomvang
MODULE 2: BIVARIATE ANALYSE: SPREIDINGSDIAGRAM, COVARIANTIE EN
CORRELATIECOËFFICIËNT
- Onderzoek samenhang twee kwantitatieve variabelen met correlatiecoëfficiënt
Spreidingsdiagrammen, steekproefcovariantie en Pearson’s correlatiecoëfficiënt
1. Spreidingsdiagrammen
- Inzicht aard samenhang (+/-), mate samenhang (sterk/zwak), uitbijters en lineariteit (/ Ϛ)
2. Steekproefcovariantie: gemiddelde van kruisproducten afstond tot gemiddelde
1
- 𝐶𝑜𝑣(𝑋, 𝑌) = 𝑆𝑋𝑌 = ∑𝑛 (𝑥 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = 𝑟𝑥𝑦 𝑠𝑥 𝑠𝑦
𝑛−1 𝑖=1 𝑖
• Aard: Cov(X, Y) > 0: samenhang positief, Cov(X, Y) = 0 geen (lineaire) samenhang
• Covariantie zegt niets over mate van samenhang: grote afhankelijk meeteenheden
3. Pearson’s correlatiecoëfficiënt: steekproefgrootheid - maatstaf lineaire samenhang
𝐶𝑜𝑣(𝑋,𝑌) ∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
- Cor = 𝑟𝑥𝑦 = =
√𝑉𝑎𝑟(𝑋)√𝑉𝑎𝑟(𝑌) √∑𝑛 2 𝑛
̅)2
𝑖=1(𝑥𝑖 −𝑥̅ ) √∑𝑖=1(𝑦𝑖 −𝑦
• -1 ≤ rXY ≤ +1, rXY > 0: positieve samenhang
• rXY = 0: geen lineaire samenhang, rXY = -1 of rXY = +1: perfecte lineaire samenhang
- Veronderstellingen correlatiecoëfficiënt
• Betrokken kansvariabelen X en Y in populatie gezamenlijk (bivariaat) normaal verdeeld
• Aselecte steekproef n uit populatie getrokken met gezamenlijke waarnemingsuitkomsten
- Populatiecorrelatiecoëfficiënt (ρXY) is tegenhanger rXY: 𝜌𝑋𝑌 = 𝜎𝑋𝑌 /𝜎𝑋 𝜎𝑌
• Geeft mate afhankelijkheid X en Y weer: -1 ≤ ρXY ≤ +1
• Elips: +1 heeft steil en uitgerekt, denkbeeldige lijn geeft voorwaardelijke verwachting
Toetsen statistische onafhankelijkheid
- Aselecte steekproef uit bivariate normale verdeling: rXY zuivere schatter van ρXY
• Onafhankelijkheid wanneer ρXY = 0
1) Formuleer hypothesen H0: ρ = 0, H1: ρ ≠ 0 H0: ρ ≤ 0, H1: ρ > 0
2
1−𝑟𝑥𝑦
2) Toetsgrootheid 𝑇 = 𝑟𝑥𝑦 /√ 𝑛−2
3) Verdeling bepalen 𝑇 ~ 𝑡 (𝑛 − 2) = 𝑡(… )
4) Verwerpingsgebied Tobs << 0 of Tobs >> 0 Tobs >> 0