Summary

Samenvatting HCO17, generalized linear model I

Name: HCO17, generalized linear model I
SKU: doc_644322
Rating: 5.00 (1 reviews)
Author: brittheijmans

Rating

5.0

(1)

Sold

Pages

Uploaded on

25-01-2020

Written in

2019/2020

Dit is een uitgebreide samenvatting van HCO17 van Yan Hautier waarin het eerste deel over generalized linear models besproken is. Het tweede deel is in HCO18 besproken. Onderwerpen die aan bod komen, zijn: general linear model, transformatie, niet-parametrische toets, glm(), lm(), anova tabel, summary tabel, maximum likelihood, deviance, chi-square verdeling, family, link, gaussian, gamma, binomial, terugtransformatie etc.

Show more Read less

Institution

Course

Content preview

H17, generalized linear model I
Tot nu toe hebben we met name naar modellen gekeken die gebaseerd zijn op normaal verdeelde
data en waar sprake is van homoscedasticity. Vorig hoorcollege is al voorbij gekomen wat je kan doen
als je residuen geen homogeen verdeelde variantie hebben en nu zal o.a. voorbij komen hoe je met
niet-normaal verdeelde residuen overweg kan.
General linear model, maakt gebruik van ordinary least squares (OLS). OLS is een framework voor
lineaire modellen, zoals regressie, ANOVA en ANCOVA. Deze kunnen allemaal uitgevoerd worden
middels lm(). Dat kan echter alleen als de data normaal verdeelde residuen heeft.
Niet-normaal verdeelde data, als je data niet normaal verdeeld is, kan je niet de eigenschapen van
de normaalverdeling (Gaussian) gebruiken en is lm() dus geen optie meer. Er zijn dan meer opties die
je kan uitproberen voordat je andere verdelingen gaat gebruiken:
- Transformatie, je kan proberen je data te transformeren tot een verdeling waarbij de
residuen wel normaal verdeeld zijn.
- Niet-parametrische toets, zijn minder sterk (powerfull) dan parametrische toetsen en deze
gebruik je dus liever niet.
- Polynomial, interpretation, poor approach to curvature
Als deze opties geen uitkomst bieden voor je niet-normaal verdeelde data kan je er ook voor kiezen
om eigenschappen van andere verdelingen (Poisson, binomial, Gamma,…) te gebruiken. Je laat je
data dan niet in een bepaalde verdeling passen, maar kijkt hoe je data verdeeld is en welke
distribution daar het beste bijpast. Dit kan door gebruik te maken van de glm() functie.
glm(), rechts zie je dat je met glm() dezelfde toetsen uit kan
voeren als met lm(). De glm() functie is nog algemener dan lm(),
vandaar de naam generalized linear model.
Data, om de glm() functie uit te leggen zullen we gebruik maken
van een voorbeeld waarbij we data gaan gebruiken. Deze data is
afkomstig van het BigBio experiment waarbij ze gekeken hebben
hoe biodiversiteit bijdraagt aan het functioneren van het
ecosysteem, bijvoorbeeld: heeft verlies van diversiteit effect op
het ecosysteem? Hiervoor wordt biodiversiteit gemanipuleerd en
we zijn dus in staat causatie aan te tonen. Ze hebben o.a.
gekeken naar biodiversiteit en bijbehorende biomassa (=primaire productiviteit.)
lm() VS glm() anova tabel, rechts zie je zowel een
lm() als glm() regressie, aangezien zowel de
respons als explanatory variabele continue zijn. Je
ziet dikgedrukt aangegeven dat er wat
overeenkomsten zijn in de anova tabellen.
- Df, in beide tabellen heb je 1 vrijheidsgraad
voor de explanatory variabelen, want in
beide gevallen ben je 2 parameters aan het
schatten (slope+intercept) en 2-1=1.
Verder zie je dat de overgebleven
vrijheidsgraden voor residuals ook gelijk is.
- Sum of squares/deviance, in beide tabellen zie je 131.06 en
475.93 maar die waardes hebben andere namen in lm() zijn
dit de sum of squares maar bij de glm() functie staat er
deviance boven. Dit komt nog aan bod.
- F-waarde, is hetzelfde en de regressie is dus even significant.
lm() VS glm() summary tabel, rechts is te zien dat de summary
tabellen van lm() en glm() precies hetzelfde zijn. Straks zal duidelijk
worden waarom dit het geval is.

, Maximum likelihood, waar lm() gebaseerd is op een normaalverdeling en dus gebruik maakt van
OLS, maakt glm() gebruik van maximum likelihood. Hierdoor kunnen we bij glm() niet alleen gaussian
distributie gebruiken, maar ook andere verdelingen. De likelihood L om een bepaalde waarde voor
een parameter te observeren gegeven de data, is de probability p van het verkrijgen van de
geobserveerde data als de parameter gelijk is aan deze bepaalde waarde:
L(waarde|data) = 𝑝(data|waarde)
Om hele kleine getallen te voorkomen worden berekenen gedaan met de log-likelihood. Waar de OLS
een exacte oplossing geeft, voer je voor het verkrijgen van de maximum likelihood steeds eenzelfde
berekening uit en kijk je vervolgens voor welke waarde van de parameter de likelihood het hoogst is.
Dit is dan de maximum likelihood. Er zal nu een voorbeeld volgen om het wat duidelijker te maken.
Voorbeeld maximum likelihood,
rechts zie je een voorbeeld
weergegeven. In de linker kolom
staat het aantal stippen wat
waargenomen is. Denk
bijvoorbeeld aan het aantal
stippen op een
lieveheersbeestje. Rechts
daarvan staat aangegeven
hoeveel stippen je had verwacht,
in dit geval 12. Voor het 1e
lieveheersbeestje had je dus 12
stippen verwacht, maar hij heeft
er maar 5. Vervolgens kan je dan
voor elke observatie de likelihood
berekenen middels
𝑝(geobserveerd|verwacht). Dit
is dus de kans dat je 5 stippen
waarneemt met de voorspelling
dat een lieveheersbeestje 12
stippen heeft. Om kleine getallen
te voorkomen neem je hier
vervolgens de log van. Dit kan je
dan voor elke observatie doen en
je ziet dat de likelihood voor 12 het grootst is. Dat is ook logisch want dat is het aantal stippen dat je
verwacht. Vervolgens tel je alle likelihoods van je observaties op en dan kom je uit op een summed
log likelihood. Als je een verwachting hebt van 12 stippen levert dat dus een summed log likelihood
van -40,199. Zoals al gemeld is maxium likelihood een iteratief proces en nadat je de summed log
likelihood van 12 hebt verkregen, ga je dus de summed log likelihood van 11,8 stippen berekenen etc.
Zo kan je doorgaan tot een voorspelling van 8 stippen en dat levert je bovenstaande grafiek op wat
betreft summed log likelihoods. Je ziet een bel curve en het maximum hiervan, de maximum
likelihood zou het gemiddelde van je observaties moeten zijn. In dit geval heb je een maximum
likelihood van 9,8 en je gemiddelde is 9,86 dus dat zit inderdaad goed in de buurt.
Maximum likelihood, deze methode bepaalt dus welke parameters van het model de beste ‘model
fit’ produceren en makes the data most likely to be observed. Het proces neemt de data als initiële
schattingen van de gefitte waardes en probeert dan steeds de residual errors te minimaliseren. Dat is
het verschil tussen de geobserveerde en gefitte waardes. Je hebt hier dus te maken met een
herhalend (iteratief) proces waarbij meerdere waardes uitgeprobeerd worden.
Deviance, is het alternatief voor de sum of squares (SS). Het is als het ware een generalized versie
van de SS. De deviance vergelijkt als het ware 2 modellen:

Report Copyright Violation

Written for

Institution: Universiteit Utrecht (UU)
Study: Biologie
Course: Voortgezette statistiek en R

All documents for this subject (21)

Document information

Uploaded on: January 25, 2020
File latest updated on: January 31, 2020
Number of pages: 8
Written in: 2019/2020
Type: SUMMARY

Subjects

general linear model
transformatie
niet parametrische toets
anova tabel
summary tabel
maximum likelihood
deviance
chi square verdeling
family
link
gaussian
gamma
binomial
terugtransformatie
glm
lm

$4.78

Get access to the full document:

Written by students who passed

Immediately available after payment

Read online or as PDF

Get to know the seller

brittheijmans

4.4

(533)

Reviews from verified buyers

Showing all reviews

LaureSchippers Moleculaire Levenswetenschappen · 167 reviews

4 year ago

5.0

1 reviews

Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

brittheijmans Universiteit Utrecht

View profile

Sold

635

Member since

8 year

Number of followers

290

Documents

381

Last sold

2 months ago

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4.4

533 reviews

308

149

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller brittheijmans. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $4.78. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews) 49904 documents were sold in the last 30 days Founded in 2010, the go-to place to buy study notes for 16 years now

Samenvatting HCO17, generalized linear model I

Content preview

Written for

Document information

Subjects

Reviews from verified buyers

Get to know the seller

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Didn't get what you expected? Choose another document

Pay as you like, start learning right away

Working on your references?

Frequently asked questions

What do I get when I buy this document?

Satisfaction guarantee: how does it work?

Who am I buying these notes from?

Will I be stuck with a subscription?

Can Stuvia be trusted?