werkcollege 1: lineaire modellen I: Correlatie en regressie .....................................................................2
werkcollege 2: lineaire modellen: anova .............................................................................................. 10
werkcollege 3: lineaire modellen III: UITBREIDINGEN ........................................................................... 17
zelfstudie 1: survival analyse .............................................................................................................. 21
werkcollege 4: kosten, baten en kostprijs ............................................................................................ 23
werkcollege 5: rekenmethodes ........................................................................................................... 26
werkcollege 6: associatiematen en onderzoeksopzet ........................................................................... 28
werkcollege 7: logistische regressie .................................................................................................... 32
werkcollege 8: test eigenschappen ..................................................................................................... 38
werkcollege 9: koppeldiagnostiek (parallel of serieel) ........................................................................... 40
zelfstudie 2: populatiedynamica ......................................................................................................... 41
zelfstdudie 3: critical appraisal ........................................................................................................... 43
Pagina 1 van 46
,WERKCOLLEGE 1: LINEAIRE MODELLEN I: CORRELATIE EN REGRESSIE
Opdracht 1:
- Afhankelijk = y-as
- Onafhankelijk = x-as
- Scatterplot: je ziet een positieve lineaire correlatie.
Naarmate het met het oog geschatte gewicht (x-as) hoger
is, is het daadwerkelijke gewicht (y-as) gemiddeld ook
hoger (de regressielijn loopt omhoog).
- Hypothesen correlatie:
o Ho: correlatie coefficient in de populatie (𝜌) = 0
o H1: correlatie coefficient in de populatie (𝜌) ≠ 0
- Aannames lineaire correlatie:
o Beide variabelen zijn continue,
o Tenminste een van de variabelen is normaal verdeeld,
o Beide variabelen zijn normaal verdeeld als we CI voor de populatie willen berekenen
- Richtingscoëfficiënt berekenen:
o
oDe correlatiecoëfficiënt is ongeveer 40%, dit betekent een positieve lineaire samenhang
tussen x en y.
o De p-value = 6,867e-08, dus <0.05 betekent significant en dus verwerpen we de Ho
o 95%-betrouwbaarheidsinterval: [0,265 ; 0,519], dus de ware correlatiecoëfficiënt ligt met
95% zekerheid ergens tussen 0,27 en 0,52 (0 zit niet in het interval en dus Ho verwerpen).
o df = 168 bij Pearson impliceert n = 170 (want df = n − 2).
- r2 bepalen:
o
Dus ongeveer 16% van de variantie van de variabele wordt verklaard door de relatie met
o
de andere (dus 84% is niet verklaard door de relatie)
- Hypothesen lineaire regressie:
o Ho: regressie coëfficiënt/helling (β) = 0
▪ → Er is geen lineair verband tussen X en Y.
▪ → De regressielijn is horizontaal; X voorspelt Y niet.
o H1: regressie coëfficiënt/helling (β) ≠ 0
▪ → Er is wél een lineair verband tussen X en Y.
▪ → De helling is positief of negatief.
- Aannames lineaire regressie:
o Homogene variantie
o Residuen normaal verdeeld
o Relatie is lineair
o Onafhankelijke waarnemingen
Pagina 2 van 46
,- Voer de lineaire regressie uit:
o
o Je kan met deze output een formule opstellen voor het lineaire regressiemodel, hiermee
kan je de y uit de x schatten: Y = intercept + β⋅X → Y(gewicht_weegschaal_4) = 429.787 +
0.271X(gewicht_oog_4)
▪ Estimate:
• Intercept = 429,787
• Richtingscoëfficiënt = 0,271 = als je 1 eenheid X omhoog gaat, dan gaat
de Y met 0,271 omhoog
▪ Std. Error:
• Geeft de standaard error van de helling: Grove 95%-BI voor de helling:
0,271 ± 1,96 ⋅ 0,048 ≈ [0,18; 0,37] .
→ de stijging ligt waarschijnlijk ergens rond 0,18–0,37
▪ t value en Pr(>|t|):
• Zegt wat over de significantie. Een t van 5.646 heeft een p-waarde van
6,87e-08. Dit is < 0.05 en dus significant. De Ho wordt verworpen.
▪ Deviance:
• Null deviance: 562220 (model zonder predictor)
• Residual deviance: 472557 (met predictor)
• Afname deviance ≈ 89663 → duidelijke verbetering, maar er blijft veel
onverklaard.
▪ df:
• df null 169 → n ≈ 170 bruikbare cases in dit model.
• 40 observaties verwijderd door missings
- Betrouwbaarheidsinterval
o
▪ Confint(fit) geeft het 95% CI van de logistische regressie (fit)
o Kan ook Handmatig:
▪ Intercept: 429.78703 +/-t (n-2,0.05) * 28.67307 =
▪ Slope: 0.27092 +/- t (n-2,0.05) * 0.04798 =
o Intercept: Het gemiddelde gemeten gewicht indien het geschatte gewicht gelijk is aan 0 →
volgens het model met 95% zekerheid tussen ~374 en ~486 kg.
o Slope: De gemiddelde stijging van het gemeten gewicht indien het geschatte gewicht met
1 eenheid toeneemt → volgens het model met 95% zekerheid tussen 0,177 en 0,365 kg.
Pagina 3 van 46
,- Residuen analyse
o Is er sprake van homogene variantie?: predicted vs residuals
▪ De residuen liggen grofweg rond de horizontale 0-lijn. Homogene variantie is dus
goed.
o Zijn de residuen normaal verdeeld?: qqnorm
▪ De punten liggen vrijwel strak op de diagonale lijn. Dat betekent dat het grootste
deel van de residuen goed overeenkomt met een normale verdeling. lichte
afwijkingen in de tails.
o Is de relatie lineair?: x-waardes vs. residuals
▪ De blauwe lijn ligt grotendeels rond 0 en is redelijk vlak, maar vertoont lichte
kromming. Interpretatie: geen sterke schending, maar er is een zwak niet-lineair
patroon
Pagina 4 van 46
,Extra opdrachten
Opdracht 1.2 In een steekproef van 13 jonge spreeuwen van verschillende leeftijd (in dagen) is de
vleugellengte (in cm) gemeten. De onderzoeksvraag is of de leeftijd kan worden gebruikt om de
vleugellengte lineair te voorspellen.
Twee waarnemingen per experimentele eenheid, namelijk leeftijd (continu) en vleugellengte (continu). De
waarnemingen zijn niet gepaard (je doet niet twee keer dezelfde variabele per dier meten), dus lineaire
regressie – de een gebruiken om de ander lineair te beschrijven.
a. Zoek in het toetsoverzicht op welke analyse geschikt is voor deze vraagstelling. Kies uit de
volgende opties.
1. Correlatie
2. Regressie
3. t-toets voor 2 onafhankelijke groepen
4. Chi-kwadraat toets voor associatie tussen 2 variabelen
5. Logistische regressie
6. Overlevingsanalyse
Laten we eerst de correlatie tussen beide variabelen berekenen, er van uitgaande dat beide variabelen
van gelijk belang zijn voor deze analyse.
b. Stel de hypothesen voor deze toets. Kies uit de volgende opties.
1. H0: er is een correlatie tussen de leeftijd en de vleugellengte ; H 1: er is geen correlatie
tussen de leeftijd en de vleugel lengte
2. H0: er is een correlatie tussen de leeftijd en de vleugellengte in de populatie jonge
spreeuwen ; H1: er is geen correlatie tussen de leeftijd en de vleugellengte in de populatie jonge
spreeuwen
3. H0: er is geen correlatie tussen de leeftijd en de vleugellengte in de populatie jonge
spreeuwen; H1: er is een correlatie tussen de leeftijd en de vleugellengte in de populatie jonge
spreeuwen
4. H0: er is geen correlatie tussen de leeftijd en de vleugellengte ; H 1: er is een correlatie
tussen de leeftijd en de vleugellengte
Nu gaan we de lineaire regressie analyse doen voor het beantwoorden van de onderzoeksvraag.
c. Welke variabele is de afhankelijke (uitkomst) variabele? Kies uit de volgende opties.
De onderzoeksvraag is of leeftijd gebruikt kan worden om vleugellengte lineair te voorspellen.
1. Vleugellengte
2. Leeftijd
3. Vleugellengte en Leeftijd
d. Stel de hypothesen op (denk goed na!) die bij de onderzoeksvraag horen.
Kies uit de volgende opties.
1. H0: 𝛽 = 0 ; H1: 𝛽 ≠ 0
2. H0: 𝛽 > 0 ; H1: 𝛽 < 0
Pagina 5 van 46
, 3. H0: 𝛽 = 0; H1: 𝛽 > 0
4. H0: 𝛽 ≠ 0 ; H1: 𝛽 = 0
Opdracht 1.3
Omdat de snuitlengte van in het wild levende alligators gemakkelijker te observeren valt dan het totale
gewicht, wil men bekijken of deze laatste te voorspellen is uit de eerste. Men ging eerst na of er een
correlatie bestaat tussen de snuitlengte en het gewicht. Men vond een lineair verband nadat men de
logaritme van beide variabelen had genomen. In aligator.txt staan de logaritme van het gewicht
(pounds) en de logaritme van de snuitlengte (inches) van 15 alligators die gevangen werden in centraal
Florida. N.B. Standaard wordt in onderzoek de natuurlijke logaritme gebruikt tenzij 10log of 2log wordt
aangegeven.
a. Zoek in het toetsoverzicht op welke analyse geschikt is voor deze vraagstelling. Kies uit de
volgende opties en beargumenteer waarom je deze keuze maakt.
1. Correlatie
2. Regressie (lineaire repressie)
3. t-toets voor 2 onafhankelijke groepen
4. Chi-kwadraat toets voor associatie tussen 2 variabelen
5. Logistische regressie
6. Overlevingsanalyse
b. Welke variabele is de afhankelijke (uitkomst) variabele en welke variabele is de onafhankelijke
(verklarende) variabele?
1. Snuitlengte is de afhankelijke variabele en gewicht de onafhankelijke variabele
2. Gewicht is de afhankelijke variabele en snuitlengte de onafhankelijke variabele
3. Gewicht en snuitlengte zijn beide onafhankelijk.
c. Bepaal hoe snuitlengte samenhangt met lichaamsgewicht.
Pearson's product-moment correlation
data: Lnsnuitlengte and Lngewicht
t = 25.803, df = 13, p-value =
1.495e-12
alternative hypothesis: true correlation is not equal to
0 95 percent confidence interval:
0.9704652 0.9968866
sample estimates:
cor
0.9903781
De correlatiecoëfficiënt is ongeveer 99%, dit betekent een (sterk) positieve lineaire samenhang
tussen x en y.
Pagina 6 van 46