Written by students who passed Immediately available after payment Read online or as PDF Wrong document? Swap it for free 4.6 TrustPilot
logo-home
Summary

Samenvatting HCO17, generalized linear model I

Rating
5.0
(1)
Sold
1
Pages
8
Uploaded on
25-01-2020
Written in
2019/2020

Dit is een uitgebreide samenvatting van HCO17 van Yan Hautier waarin het eerste deel over generalized linear models besproken is. Het tweede deel is in HCO18 besproken. Onderwerpen die aan bod komen, zijn: general linear model, transformatie, niet-parametrische toets, glm(), lm(), anova tabel, summary tabel, maximum likelihood, deviance, chi-square verdeling, family, link, gaussian, gamma, binomial, terugtransformatie etc.

Show more Read less
Institution
Course

Content preview

H17, generalized linear model I
Tot nu toe hebben we met name naar modellen gekeken die gebaseerd zijn op normaal verdeelde
data en waar sprake is van homoscedasticity. Vorig hoorcollege is al voorbij gekomen wat je kan doen
als je residuen geen homogeen verdeelde variantie hebben en nu zal o.a. voorbij komen hoe je met
niet-normaal verdeelde residuen overweg kan.
General linear model, maakt gebruik van ordinary least squares (OLS). OLS is een framework voor
lineaire modellen, zoals regressie, ANOVA en ANCOVA. Deze kunnen allemaal uitgevoerd worden
middels lm(). Dat kan echter alleen als de data normaal verdeelde residuen heeft.
Niet-normaal verdeelde data, als je data niet normaal verdeeld is, kan je niet de eigenschapen van
de normaalverdeling (Gaussian) gebruiken en is lm() dus geen optie meer. Er zijn dan meer opties die
je kan uitproberen voordat je andere verdelingen gaat gebruiken:
- Transformatie, je kan proberen je data te transformeren tot een verdeling waarbij de
residuen wel normaal verdeeld zijn.
- Niet-parametrische toets, zijn minder sterk (powerfull) dan parametrische toetsen en deze
gebruik je dus liever niet.
- Polynomial, interpretation, poor approach to curvature
Als deze opties geen uitkomst bieden voor je niet-normaal verdeelde data kan je er ook voor kiezen
om eigenschappen van andere verdelingen (Poisson, binomial, Gamma,…) te gebruiken. Je laat je
data dan niet in een bepaalde verdeling passen, maar kijkt hoe je data verdeeld is en welke
distribution daar het beste bijpast. Dit kan door gebruik te maken van de glm() functie.
glm(), rechts zie je dat je met glm() dezelfde toetsen uit kan
voeren als met lm(). De glm() functie is nog algemener dan lm(),
vandaar de naam generalized linear model.
Data, om de glm() functie uit te leggen zullen we gebruik maken
van een voorbeeld waarbij we data gaan gebruiken. Deze data is
afkomstig van het BigBio experiment waarbij ze gekeken hebben
hoe biodiversiteit bijdraagt aan het functioneren van het
ecosysteem, bijvoorbeeld: heeft verlies van diversiteit effect op
het ecosysteem? Hiervoor wordt biodiversiteit gemanipuleerd en
we zijn dus in staat causatie aan te tonen. Ze hebben o.a.
gekeken naar biodiversiteit en bijbehorende biomassa (=primaire productiviteit.)
lm() VS glm() anova tabel, rechts zie je zowel een
lm() als glm() regressie, aangezien zowel de
respons als explanatory variabele continue zijn. Je
ziet dikgedrukt aangegeven dat er wat
overeenkomsten zijn in de anova tabellen.
- Df, in beide tabellen heb je 1 vrijheidsgraad
voor de explanatory variabelen, want in
beide gevallen ben je 2 parameters aan het
schatten (slope+intercept) en 2-1=1.
Verder zie je dat de overgebleven
vrijheidsgraden voor residuals ook gelijk is.
- Sum of squares/deviance, in beide tabellen zie je 131.06 en
475.93 maar die waardes hebben andere namen in lm() zijn
dit de sum of squares maar bij de glm() functie staat er
deviance boven. Dit komt nog aan bod.
- F-waarde, is hetzelfde en de regressie is dus even significant.
lm() VS glm() summary tabel, rechts is te zien dat de summary
tabellen van lm() en glm() precies hetzelfde zijn. Straks zal duidelijk
worden waarom dit het geval is.

, Maximum likelihood, waar lm() gebaseerd is op een normaalverdeling en dus gebruik maakt van
OLS, maakt glm() gebruik van maximum likelihood. Hierdoor kunnen we bij glm() niet alleen gaussian
distributie gebruiken, maar ook andere verdelingen. De likelihood L om een bepaalde waarde voor
een parameter te observeren gegeven de data, is de probability p van het verkrijgen van de
geobserveerde data als de parameter gelijk is aan deze bepaalde waarde:
L(waarde|data) = 𝑝(data|waarde)
Om hele kleine getallen te voorkomen worden berekenen gedaan met de log-likelihood. Waar de OLS
een exacte oplossing geeft, voer je voor het verkrijgen van de maximum likelihood steeds eenzelfde
berekening uit en kijk je vervolgens voor welke waarde van de parameter de likelihood het hoogst is.
Dit is dan de maximum likelihood. Er zal nu een voorbeeld volgen om het wat duidelijker te maken.
Voorbeeld maximum likelihood,
rechts zie je een voorbeeld
weergegeven. In de linker kolom
staat het aantal stippen wat
waargenomen is. Denk
bijvoorbeeld aan het aantal
stippen op een
lieveheersbeestje. Rechts
daarvan staat aangegeven
hoeveel stippen je had verwacht,
in dit geval 12. Voor het 1e
lieveheersbeestje had je dus 12
stippen verwacht, maar hij heeft
er maar 5. Vervolgens kan je dan
voor elke observatie de likelihood
berekenen middels
𝑝(geobserveerd|verwacht). Dit
is dus de kans dat je 5 stippen
waarneemt met de voorspelling
dat een lieveheersbeestje 12
stippen heeft. Om kleine getallen
te voorkomen neem je hier
vervolgens de log van. Dit kan je
dan voor elke observatie doen en
je ziet dat de likelihood voor 12 het grootst is. Dat is ook logisch want dat is het aantal stippen dat je
verwacht. Vervolgens tel je alle likelihoods van je observaties op en dan kom je uit op een summed
log likelihood. Als je een verwachting hebt van 12 stippen levert dat dus een summed log likelihood
van -40,199. Zoals al gemeld is maxium likelihood een iteratief proces en nadat je de summed log
likelihood van 12 hebt verkregen, ga je dus de summed log likelihood van 11,8 stippen berekenen etc.
Zo kan je doorgaan tot een voorspelling van 8 stippen en dat levert je bovenstaande grafiek op wat
betreft summed log likelihoods. Je ziet een bel curve en het maximum hiervan, de maximum
likelihood zou het gemiddelde van je observaties moeten zijn. In dit geval heb je een maximum
likelihood van 9,8 en je gemiddelde is 9,86 dus dat zit inderdaad goed in de buurt.
Maximum likelihood, deze methode bepaalt dus welke parameters van het model de beste ‘model
fit’ produceren en makes the data most likely to be observed. Het proces neemt de data als initiële
schattingen van de gefitte waardes en probeert dan steeds de residual errors te minimaliseren. Dat is
het verschil tussen de geobserveerde en gefitte waardes. Je hebt hier dus te maken met een
herhalend (iteratief) proces waarbij meerdere waardes uitgeprobeerd worden.
Deviance, is het alternatief voor de sum of squares (SS). Het is als het ware een generalized versie
van de SS. De deviance vergelijkt als het ware 2 modellen:

Written for

Institution
Study
Course

Document information

Uploaded on
January 25, 2020
File latest updated on
January 31, 2020
Number of pages
8
Written in
2019/2020
Type
SUMMARY

Subjects

$4.78
Get access to the full document:

Wrong document? Swap it for free Within 14 days of purchase and before downloading, you can choose a different document. You can simply spend the amount again.
Written by students who passed
Immediately available after payment
Read online or as PDF

Reviews from verified buyers

Showing all reviews
4 year ago

5.0

1 reviews

5
1
4
0
3
0
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
brittheijmans Universiteit Utrecht
Follow You need to be logged in order to follow users or courses
Sold
635
Member since
8 year
Number of followers
290
Documents
381
Last sold
2 months ago

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4.4

533 reviews

5
308
4
149
3
53
2
4
1
19

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Working on your references?

Create accurate citations in APA, MLA and Harvard with our free citation generator.

Working on your references?

Frequently asked questions