Samenvatting

Samenvatting HCO17, generalized linear model I

Name: HCO17, generalized linear model I
SKU: doc_644322
Rating: 5.00 (1 reviews)
Author: brittheijmans

Beoordeling

5,0

(1)

Verkocht

Pagina's

Geüpload op

25-01-2020

Geschreven in

2019/2020

Dit is een uitgebreide samenvatting van HCO17 van Yan Hautier waarin het eerste deel over generalized linear models besproken is. Het tweede deel is in HCO18 besproken. Onderwerpen die aan bod komen, zijn: general linear model, transformatie, niet-parametrische toets, glm(), lm(), anova tabel, summary tabel, maximum likelihood, deviance, chi-square verdeling, family, link, gaussian, gamma, binomial, terugtransformatie etc.

Meer zien Lees minder

Instelling

Vak

Voorbeeld van de inhoud

H17, generalized linear model I
Tot nu toe hebben we met name naar modellen gekeken die gebaseerd zijn op normaal verdeelde
data en waar sprake is van homoscedasticity. Vorig hoorcollege is al voorbij gekomen wat je kan doen
als je residuen geen homogeen verdeelde variantie hebben en nu zal o.a. voorbij komen hoe je met
niet-normaal verdeelde residuen overweg kan.
General linear model, maakt gebruik van ordinary least squares (OLS). OLS is een framework voor
lineaire modellen, zoals regressie, ANOVA en ANCOVA. Deze kunnen allemaal uitgevoerd worden
middels lm(). Dat kan echter alleen als de data normaal verdeelde residuen heeft.
Niet-normaal verdeelde data, als je data niet normaal verdeeld is, kan je niet de eigenschapen van
de normaalverdeling (Gaussian) gebruiken en is lm() dus geen optie meer. Er zijn dan meer opties die
je kan uitproberen voordat je andere verdelingen gaat gebruiken:
- Transformatie, je kan proberen je data te transformeren tot een verdeling waarbij de
residuen wel normaal verdeeld zijn.
- Niet-parametrische toets, zijn minder sterk (powerfull) dan parametrische toetsen en deze
gebruik je dus liever niet.
- Polynomial, interpretation, poor approach to curvature
Als deze opties geen uitkomst bieden voor je niet-normaal verdeelde data kan je er ook voor kiezen
om eigenschappen van andere verdelingen (Poisson, binomial, Gamma,…) te gebruiken. Je laat je
data dan niet in een bepaalde verdeling passen, maar kijkt hoe je data verdeeld is en welke
distribution daar het beste bijpast. Dit kan door gebruik te maken van de glm() functie.
glm(), rechts zie je dat je met glm() dezelfde toetsen uit kan
voeren als met lm(). De glm() functie is nog algemener dan lm(),
vandaar de naam generalized linear model.
Data, om de glm() functie uit te leggen zullen we gebruik maken
van een voorbeeld waarbij we data gaan gebruiken. Deze data is
afkomstig van het BigBio experiment waarbij ze gekeken hebben
hoe biodiversiteit bijdraagt aan het functioneren van het
ecosysteem, bijvoorbeeld: heeft verlies van diversiteit effect op
het ecosysteem? Hiervoor wordt biodiversiteit gemanipuleerd en
we zijn dus in staat causatie aan te tonen. Ze hebben o.a.
gekeken naar biodiversiteit en bijbehorende biomassa (=primaire productiviteit.)
lm() VS glm() anova tabel, rechts zie je zowel een
lm() als glm() regressie, aangezien zowel de
respons als explanatory variabele continue zijn. Je
ziet dikgedrukt aangegeven dat er wat
overeenkomsten zijn in de anova tabellen.
- Df, in beide tabellen heb je 1 vrijheidsgraad
voor de explanatory variabelen, want in
beide gevallen ben je 2 parameters aan het
schatten (slope+intercept) en 2-1=1.
Verder zie je dat de overgebleven
vrijheidsgraden voor residuals ook gelijk is.
- Sum of squares/deviance, in beide tabellen zie je 131.06 en
475.93 maar die waardes hebben andere namen in lm() zijn
dit de sum of squares maar bij de glm() functie staat er
deviance boven. Dit komt nog aan bod.
- F-waarde, is hetzelfde en de regressie is dus even significant.
lm() VS glm() summary tabel, rechts is te zien dat de summary
tabellen van lm() en glm() precies hetzelfde zijn. Straks zal duidelijk
worden waarom dit het geval is.

, Maximum likelihood, waar lm() gebaseerd is op een normaalverdeling en dus gebruik maakt van
OLS, maakt glm() gebruik van maximum likelihood. Hierdoor kunnen we bij glm() niet alleen gaussian
distributie gebruiken, maar ook andere verdelingen. De likelihood L om een bepaalde waarde voor
een parameter te observeren gegeven de data, is de probability p van het verkrijgen van de
geobserveerde data als de parameter gelijk is aan deze bepaalde waarde:
L(waarde|data) = 𝑝(data|waarde)
Om hele kleine getallen te voorkomen worden berekenen gedaan met de log-likelihood. Waar de OLS
een exacte oplossing geeft, voer je voor het verkrijgen van de maximum likelihood steeds eenzelfde
berekening uit en kijk je vervolgens voor welke waarde van de parameter de likelihood het hoogst is.
Dit is dan de maximum likelihood. Er zal nu een voorbeeld volgen om het wat duidelijker te maken.
Voorbeeld maximum likelihood,
rechts zie je een voorbeeld
weergegeven. In de linker kolom
staat het aantal stippen wat
waargenomen is. Denk
bijvoorbeeld aan het aantal
stippen op een
lieveheersbeestje. Rechts
daarvan staat aangegeven
hoeveel stippen je had verwacht,
in dit geval 12. Voor het 1e
lieveheersbeestje had je dus 12
stippen verwacht, maar hij heeft
er maar 5. Vervolgens kan je dan
voor elke observatie de likelihood
berekenen middels
𝑝(geobserveerd|verwacht). Dit
is dus de kans dat je 5 stippen
waarneemt met de voorspelling
dat een lieveheersbeestje 12
stippen heeft. Om kleine getallen
te voorkomen neem je hier
vervolgens de log van. Dit kan je
dan voor elke observatie doen en
je ziet dat de likelihood voor 12 het grootst is. Dat is ook logisch want dat is het aantal stippen dat je
verwacht. Vervolgens tel je alle likelihoods van je observaties op en dan kom je uit op een summed
log likelihood. Als je een verwachting hebt van 12 stippen levert dat dus een summed log likelihood
van -40,199. Zoals al gemeld is maxium likelihood een iteratief proces en nadat je de summed log
likelihood van 12 hebt verkregen, ga je dus de summed log likelihood van 11,8 stippen berekenen etc.
Zo kan je doorgaan tot een voorspelling van 8 stippen en dat levert je bovenstaande grafiek op wat
betreft summed log likelihoods. Je ziet een bel curve en het maximum hiervan, de maximum
likelihood zou het gemiddelde van je observaties moeten zijn. In dit geval heb je een maximum
likelihood van 9,8 en je gemiddelde is 9,86 dus dat zit inderdaad goed in de buurt.
Maximum likelihood, deze methode bepaalt dus welke parameters van het model de beste ‘model
fit’ produceren en makes the data most likely to be observed. Het proces neemt de data als initiële
schattingen van de gefitte waardes en probeert dan steeds de residual errors te minimaliseren. Dat is
het verschil tussen de geobserveerde en gefitte waardes. Je hebt hier dus te maken met een
herhalend (iteratief) proces waarbij meerdere waardes uitgeprobeerd worden.
Deviance, is het alternatief voor de sum of squares (SS). Het is als het ware een generalized versie
van de SS. De deviance vergelijkt als het ware 2 modellen:

Meld schending auteursrecht

Geschreven voor

Instelling: Universiteit Utrecht (UU)
Studie: Biologie
Vak: Voortgezette statistiek en R

Alle documenten voor dit vak (21)

Documentinformatie

Geüpload op: 25 januari 2020
Bestand laatst geupdate op: 31 januari 2020
Aantal pagina's: 8
Geschreven in: 2019/2020
Type: SAMENVATTING

Onderwerpen

general linear model
transformatie
niet parametrische toets
anova tabel
summary tabel
maximum likelihood
deviance
chi square verdeling
family
link
gaussian
gamma
binomial
terugtransformatie
glm
lm

€3,99

Krijg toegang tot het volledige document:

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

brittheijmans

4,4

(533)

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven

LaureSchippers Moleculaire Levenswetenschappen · 167 beoordelingen

4 jaar geleden

5,0

1 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

brittheijmans Universiteit Utrecht

Bekijk profiel

Volgen

Verkocht

636

Lid sinds

8 jaar

Aantal volgers

290

Documenten

381

Laatst verkocht

1 week geleden

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4,4

533 beoordelingen

308

149

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 54001 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Samenvatting HCO17, generalized linear model I

Voorbeeld van de inhoud

Geschreven voor

Documentinformatie

Onderwerpen

Meer vakken binnen Universiteit Utrecht (UU) > Biologie

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?