Samenvatting

Samenvatting Hoorcollege 8, relaties

Name: Hoorcollege 8, relaties
SKU: doc_426530
Rating: 3.00 (1 reviews)
Author: brittheijmans

Beoordeling

3,0

(1)

Verkocht

Pagina's

Geüpload op

23-05-2018

Geschreven in

2017/2018

Dit is een uitgebreide samenvatting van het 8e hoorcollege van experiment & statistiek. Hierin komen de volgende onderwerpen aan bod: correlatie, causatie, lineaire regressie, regressielijn, SSresiduen, parameters , onzekerheid, variantie, SSregressie, SStotaal, determinatiecoëfficiënt, toetsen lineaire regressie, aannames, ANOVA, toetsingsgrootheid, F, F-verdeling, SPSS, betrouwbaarheidsinterval, voorspellingsinterval, aannames controleren etc.

Meer zien Lees minder

Instelling

Vak

Voorbeeld van de inhoud

Hoorcollege 8, relaties
Pearson correlatie is voor continue variabelen.
Correlatie & causatie, als je ziet dat twee zaken met elkaar samenhangen (correleren) zijn mensen
vaak geneigd om te concluderen dat de ene variabele de oorzaak is van de andere variabele. Dit
oorzakelijk verband kan weleens verkeerd opgevat worden en de volgende fout opleveren:
- Omdraaien van de richting van causaliteit: “Hoe harde de wieken van een molen draaien,
hoe sterker de wind is. Dus: wind wordt veroorzaakt door het draaien van de wieken.”
Het kan ook zo zijn dat de twee variabelen een gemeenschappelijk oorzaak hebben en correlatie
hoeft dus niet te duiden op causatie tussen de twee variabelen waar je naar kijkt:
- Gemeenschappelijke oorzaak (confouding variables): “In de periode waarin er meer ijs
wordt verkocht overlijden er meer mensen aan verdrinking. Dus: ijsjes veroorzaken
verdrinking.” Het klopt hier inderdaad dat er meer mensen aan verdrinking overlijden
als er veel ijs gegeten wordt, maar de oorzaak van deze verdrinking is niet ijs. De
gemeenschappelijke oorzaak is de temperatuur, waardoor er meer ijs gegeten wordt en
meer aan waterrecreatie gedaan wordt.
Bovenstaande voorbeelden lijken erg dom, maar ze geven goed de essentie van de fouten aan. Als
we nu kijken naar de volgende observatie: “In een grote database met expressiedata geldt: als
transcriptiefactor A een hoge expressie heeft, dan is de expressie van eiwit B gemiddeld ook hoog.”
Hieruit kan je concluderen dat: “Transcriptiefactor A het gen van B reguleert.” Maar dat hoeft
helemaal niet zo te zijn. Je kan hier alleen concluderen dat er een correlatie is. Zie interleaf 8 voor
meer informatie hierover.
Lineaire regressie, we kunnen nu voorspellen of er een lineair
verband is, maar vaak wil je ook kunnen voorspellen wat de
waarde van Y is als je waarde van X al weet (als er een lineair
verband is). We zagen eerder dat het leek of de bloeddruk
toenam met het gewicht en de vraag is nu of je iemands
bloeddruk kan voorspellen als je zijn gewicht weet. Rechts zie je
de data van dit onderzoek nog eens weergegeven en om te
voorspellen wat iemand zijn bloeddruk is op basis van zijn
gewicht, trek je een lijn door al je meetpunten heen. Dat is de regressielijn en die is rechts
weergegeven. Deze lijn beschrijft het verband tussen X en Y op de best mogelijke manier.
Regressielijn, de formule voor een rechte lijn is: 𝑦 = 𝑎 + 𝑏𝑥. Op de middelbare school je heb je
echter 𝑦 = 𝑎𝑥 + 𝑏 geleerd en je moet dus goed onthouden dat parameters 𝑎 en 𝑏 nu dus anders
zijn. In het geval van 𝑦 = 𝑎 + 𝑏𝑥 geeft 𝑎 het snijpunt met de Y-as aan en 𝑏 is de richtingscoëfficiënt.
De richtingscoëfficiënt geeft aan hoeveel je omhoog gaat als je één stapje opzij zet. De precieze
definitie van de regressielijn is: de rechte lijn waarvoor de kwadratensom het kleinst is:
𝑛
2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 = ∑(𝑌𝑖 − (𝑎 + 𝑏𝑋𝑖 ))
𝑖=1
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 wordt ook wel 𝑆𝑆𝑒𝑟𝑟𝑜𝑟 genoemd en de regressielijn
is dus de lijn waarbij alle afstanden van de punten tot de lijn
opgeteld het kleinst zijn. In de formule zie je dit ook
weergegeven doordat je van elk punt de Y-waarde neemt en
daar de lijn vanaf trekt, waardoor je de afstand van het
betreffende punt tot de lijn krijgt. Deze afstand kwadrateer je
dan en tel je op bij de afstanden van de andere punten. Je kan
nu aan de hand van je berekende regressielijn voorspellingen gaan doen. Zo zie je de afbeelding
aangegeven dat een persoon van 60 kg waarschijnlijk een bloeddruk heeft van 70,27 mm/Hg.
Parameters 𝒂 en 𝒃, kun je uitrekenen aan de hand van je datapunten. Voor 𝑏 geldt:
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)
𝑏=
∑(𝑋𝑖 − 𝑋̅)2

, 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒(𝑋, 𝑌)
=
𝑠𝑋2
𝑠𝑌
= 𝑟( )
𝑠𝑋
Je ziet hier dat 𝑏 en 𝑟 met elkaar te maken hebben, maar dat ze niet hetzelfde zijn. Je ziet dan ook
dat de teller hetzelfde is als die van 𝑟, maar in de noemer staat iets anders. De helling van een
regressielijn is dus niet hetzelfde als de correlatiecoëfficiënt. Hierbij is 𝑟 een getal tussen -1 en 1,
𝑠 𝑠
waardoor 𝑏 tussen − ( 𝑌 ) en ( 𝑌 ) ligt. Verder loopt de regressielijn altijd door het punt (𝑋̅, 𝑌̅),
𝑠𝑋 𝑠𝑋
waardoor je 𝑎 uit kan rekenen door alle bekenden in te vullen in 𝑌̅ = 𝑎 + 𝑏𝑋̅.
Onzekerheid, we kunnen nu de regressielijn opstellen en aan de hand daarvan voorspellingen doen,
maar we willen ook aan kunnen geven hoe (on)zeker die voorspellingen zijn. Ook willen we toetsen
uit kunnen voeren met onze voorspellingen. Het blijkt dat je dit kan doen door een beetje op
dezelfde manier als bij 1-weg ANOVA de variantie op delen.
Opsplitsen variantie, de totale variantie (totale kwadratensom)
van Y kan je opsplitsen in twee delen: 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 +
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 . Rechts zie je hier een samenvattend figuur van. De
totale kwadratensom is de afstand van ieder punt tot het
gemiddelde van Y (𝑌̅) en dat doe je dus voor ieder punt. Deze
lengtes kwadrateer je vervolgens en tel je bij elkaar op. Dat blijkt
hetzelfde te zijn als de standaarddeviatie van Y vermenigvuldigt
met (𝑛 − 1). Dit kan je dan weer opsplitsen in twee delen:
- 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 , hierbij neem je de afstand van elk punt op de regressielijn tot het gemiddelde. Je
kijkt dus waar de punten op de regressielijn gerepresenteerd worden en neemt de afstand
van dat punt op de regressielijn tot 𝑌̅. Deze afstanden kwadrateer je en tel je bij elkaar op.
- 𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 , hier neem je van ieder punt zijn afstand tot de regressielijn. Deze afstanden
kwadrateer je en tel je bij elkaar op.
De variatie in bloeddruk (staat op de Y-as) is er dus door twee redenen: er is variatie doordat mensen
met een verschillend gewicht een verschillende bloeddruk hebben en een deel van de variatie kan
dus verklaard worden door verschillen in gewicht. Het is echter ook zo dat mensen met eenzelfde
gewicht een verschillende bloeddruk kunnen hebben. Dat zie je in het rechter gedeelte van de
afbeelding en een ander deel van de variantie kan dus verklaard worden door zaken anders dan het
gewicht. Het eerste deel (𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 ) kan verklaard worden en het tweede deel (𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 ) kan niet
verklaard worden.
𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒
Determinatiecoëfficiënt, door de determinatiecoëfficiënt uit te rekenen: 𝑅 2 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙
kunnen we
zeggen welk gedeelte van de variatie in Y te verklaren is met de relatie tot X. In gedachte van het
voorbeeld kan je daarmee dus zeggen welk gedeelte van de variatie in bloeddruk te verklaren is met
de variatie in het gewicht. Het blijkt nu dat 𝑅 2 precies gelijk is aan 𝑟 2 . Dat is op zich wel logisch want
als 𝑟 = 1 moet het wel zo zijn dat alle variatie in bloeddruk bijvoorbeeld samenhangt met variatie in
gewicht.
Voorbeeld gewicht en bloeddruk, als we deze kennis toepassen op het voorbeeld krijgen we voor
𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 + 𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 dat 335,66 = 189,54 + 146,12. De determinatiecoëfficiënt die
189,54
hieruit volgt is 𝑅 2 = 335,66 = 0,5647 = (0,753)2 = 𝑟 2 . We kunnen dus de conclusie trekken dat 56%
van de variantie in bloeddruk verklaard kan worden door variatie in gewicht. Dat wil niet zeggen dat
gewicht de verklaring is! We moeten namelijk oppassen met causatie als we bezig zijn met correlatie.
Toetsen lineaire regressie, je kan je afvragen of er daadwerkelijk een lineair verband is, of dat de
gevonden helling van de regressielijn ook op toeval gebaseerd kan worden. Als we er vanuit gaan dat
𝛽 de ware helling is die bij het verband hoort. Dan is 𝑏 de schatting van 𝛽 op basis van de steekproef
en kunnen we de volgende hypothese toetsen 𝐻0 : 𝛽 = 0 en 𝐻𝐴 : 𝛽 ≠ 0. Nu willen we dus aan kunnen
tonen of er een significante relatie is of niet.

Meld schending auteursrecht

Gekoppeld boek

Michael Whitlock, Dolph Schluter The Analysis of Biological Data

Uitgave:juli 2014
ISBN:9781936221486
Druk:1

Geschreven voor

Instelling: Universiteit Utrecht (UU)
Studie: Biologie
Vak: Experiment en Statistiek

Alle documenten voor dit vak (11)

Documentinformatie

Heel boek samengevat?: Nee
Wat is er van het boek samengevat?: H16, h17
Geüpload op: 23 mei 2018
Aantal pagina's: 6
Geschreven in: 2017/2018
Type: SAMENVATTING

Onderwerpen

correlatie
causatie
lineaire regressie
regressielijn
ssresiduen
parameters
onzekerheid
variantie
ssregressie
sstotaal
determinatiecoëfficiënt
aannames
anova
toetsingsgroothe
toetsen lineaire regressie

€3,49

Krijg toegang tot het volledige document:

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

brittheijmans

4,4

(533)

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven

thibaudtegroen Psychologie · 69 beoordelingen

7 jaar geleden

3,0

1 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

brittheijmans Universiteit Utrecht

Bekijk profiel

Volgen

Verkocht

635

Lid sinds

8 jaar

Aantal volgers

290

Documenten

381

Laatst verkocht

2 maanden geleden

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4,4

533 beoordelingen

308

149

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €3,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 49586 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Samenvatting Hoorcollege 8, relaties

Voorbeeld van de inhoud

Gekoppeld boek

Geschreven voor

Documentinformatie

Onderwerpen

Meer vakken binnen Universiteit Utrecht (UU) > Biologie

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?