Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
Samenvatting

Samenvatting HCO17, generalized linear model I

Beoordeling
5,0
(1)
Verkocht
1
Pagina's
8
Geüpload op
25-01-2020
Geschreven in
2019/2020

Dit is een uitgebreide samenvatting van HCO17 van Yan Hautier waarin het eerste deel over generalized linear models besproken is. Het tweede deel is in HCO18 besproken. Onderwerpen die aan bod komen, zijn: general linear model, transformatie, niet-parametrische toets, glm(), lm(), anova tabel, summary tabel, maximum likelihood, deviance, chi-square verdeling, family, link, gaussian, gamma, binomial, terugtransformatie etc.

Meer zien Lees minder

Voorbeeld van de inhoud

H17, generalized linear model I
Tot nu toe hebben we met name naar modellen gekeken die gebaseerd zijn op normaal verdeelde
data en waar sprake is van homoscedasticity. Vorig hoorcollege is al voorbij gekomen wat je kan doen
als je residuen geen homogeen verdeelde variantie hebben en nu zal o.a. voorbij komen hoe je met
niet-normaal verdeelde residuen overweg kan.
General linear model, maakt gebruik van ordinary least squares (OLS). OLS is een framework voor
lineaire modellen, zoals regressie, ANOVA en ANCOVA. Deze kunnen allemaal uitgevoerd worden
middels lm(). Dat kan echter alleen als de data normaal verdeelde residuen heeft.
Niet-normaal verdeelde data, als je data niet normaal verdeeld is, kan je niet de eigenschapen van
de normaalverdeling (Gaussian) gebruiken en is lm() dus geen optie meer. Er zijn dan meer opties die
je kan uitproberen voordat je andere verdelingen gaat gebruiken:
- Transformatie, je kan proberen je data te transformeren tot een verdeling waarbij de
residuen wel normaal verdeeld zijn.
- Niet-parametrische toets, zijn minder sterk (powerfull) dan parametrische toetsen en deze
gebruik je dus liever niet.
- Polynomial, interpretation, poor approach to curvature
Als deze opties geen uitkomst bieden voor je niet-normaal verdeelde data kan je er ook voor kiezen
om eigenschappen van andere verdelingen (Poisson, binomial, Gamma,…) te gebruiken. Je laat je
data dan niet in een bepaalde verdeling passen, maar kijkt hoe je data verdeeld is en welke
distribution daar het beste bijpast. Dit kan door gebruik te maken van de glm() functie.
glm(), rechts zie je dat je met glm() dezelfde toetsen uit kan
voeren als met lm(). De glm() functie is nog algemener dan lm(),
vandaar de naam generalized linear model.
Data, om de glm() functie uit te leggen zullen we gebruik maken
van een voorbeeld waarbij we data gaan gebruiken. Deze data is
afkomstig van het BigBio experiment waarbij ze gekeken hebben
hoe biodiversiteit bijdraagt aan het functioneren van het
ecosysteem, bijvoorbeeld: heeft verlies van diversiteit effect op
het ecosysteem? Hiervoor wordt biodiversiteit gemanipuleerd en
we zijn dus in staat causatie aan te tonen. Ze hebben o.a.
gekeken naar biodiversiteit en bijbehorende biomassa (=primaire productiviteit.)
lm() VS glm() anova tabel, rechts zie je zowel een
lm() als glm() regressie, aangezien zowel de
respons als explanatory variabele continue zijn. Je
ziet dikgedrukt aangegeven dat er wat
overeenkomsten zijn in de anova tabellen.
- Df, in beide tabellen heb je 1 vrijheidsgraad
voor de explanatory variabelen, want in
beide gevallen ben je 2 parameters aan het
schatten (slope+intercept) en 2-1=1.
Verder zie je dat de overgebleven
vrijheidsgraden voor residuals ook gelijk is.
- Sum of squares/deviance, in beide tabellen zie je 131.06 en
475.93 maar die waardes hebben andere namen in lm() zijn
dit de sum of squares maar bij de glm() functie staat er
deviance boven. Dit komt nog aan bod.
- F-waarde, is hetzelfde en de regressie is dus even significant.
lm() VS glm() summary tabel, rechts is te zien dat de summary
tabellen van lm() en glm() precies hetzelfde zijn. Straks zal duidelijk
worden waarom dit het geval is.

, Maximum likelihood, waar lm() gebaseerd is op een normaalverdeling en dus gebruik maakt van
OLS, maakt glm() gebruik van maximum likelihood. Hierdoor kunnen we bij glm() niet alleen gaussian
distributie gebruiken, maar ook andere verdelingen. De likelihood L om een bepaalde waarde voor
een parameter te observeren gegeven de data, is de probability p van het verkrijgen van de
geobserveerde data als de parameter gelijk is aan deze bepaalde waarde:
L(waarde|data) = 𝑝(data|waarde)
Om hele kleine getallen te voorkomen worden berekenen gedaan met de log-likelihood. Waar de OLS
een exacte oplossing geeft, voer je voor het verkrijgen van de maximum likelihood steeds eenzelfde
berekening uit en kijk je vervolgens voor welke waarde van de parameter de likelihood het hoogst is.
Dit is dan de maximum likelihood. Er zal nu een voorbeeld volgen om het wat duidelijker te maken.
Voorbeeld maximum likelihood,
rechts zie je een voorbeeld
weergegeven. In de linker kolom
staat het aantal stippen wat
waargenomen is. Denk
bijvoorbeeld aan het aantal
stippen op een
lieveheersbeestje. Rechts
daarvan staat aangegeven
hoeveel stippen je had verwacht,
in dit geval 12. Voor het 1e
lieveheersbeestje had je dus 12
stippen verwacht, maar hij heeft
er maar 5. Vervolgens kan je dan
voor elke observatie de likelihood
berekenen middels
𝑝(geobserveerd|verwacht). Dit
is dus de kans dat je 5 stippen
waarneemt met de voorspelling
dat een lieveheersbeestje 12
stippen heeft. Om kleine getallen
te voorkomen neem je hier
vervolgens de log van. Dit kan je
dan voor elke observatie doen en
je ziet dat de likelihood voor 12 het grootst is. Dat is ook logisch want dat is het aantal stippen dat je
verwacht. Vervolgens tel je alle likelihoods van je observaties op en dan kom je uit op een summed
log likelihood. Als je een verwachting hebt van 12 stippen levert dat dus een summed log likelihood
van -40,199. Zoals al gemeld is maxium likelihood een iteratief proces en nadat je de summed log
likelihood van 12 hebt verkregen, ga je dus de summed log likelihood van 11,8 stippen berekenen etc.
Zo kan je doorgaan tot een voorspelling van 8 stippen en dat levert je bovenstaande grafiek op wat
betreft summed log likelihoods. Je ziet een bel curve en het maximum hiervan, de maximum
likelihood zou het gemiddelde van je observaties moeten zijn. In dit geval heb je een maximum
likelihood van 9,8 en je gemiddelde is 9,86 dus dat zit inderdaad goed in de buurt.
Maximum likelihood, deze methode bepaalt dus welke parameters van het model de beste ‘model
fit’ produceren en makes the data most likely to be observed. Het proces neemt de data als initiële
schattingen van de gefitte waardes en probeert dan steeds de residual errors te minimaliseren. Dat is
het verschil tussen de geobserveerde en gefitte waardes. Je hebt hier dus te maken met een
herhalend (iteratief) proces waarbij meerdere waardes uitgeprobeerd worden.
Deviance, is het alternatief voor de sum of squares (SS). Het is als het ware een generalized versie
van de SS. De deviance vergelijkt als het ware 2 modellen:

Documentinformatie

Geüpload op
25 januari 2020
Bestand laatst geupdate op
31 januari 2020
Aantal pagina's
8
Geschreven in
2019/2020
Type
SAMENVATTING

Onderwerpen

€3,99
Krijg toegang tot het volledige document:

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
4 jaar geleden

5,0

1 beoordelingen

5
1
4
0
3
0
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
brittheijmans Universiteit Utrecht
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
636
Lid sinds
8 jaar
Aantal volgers
290
Documenten
381
Laatst verkocht
1 week geleden

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4,4

533 beoordelingen

5
308
4
149
3
53
2
4
1
19

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Bezig met je bronvermelding?

Maak nauwkeurige citaten in APA, MLA en Harvard met onze gratis bronnengenerator.

Bezig met je bronvermelding?

Veelgestelde vragen