Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
Samenvatting

Samenvatting Hoorcollege 8, relaties

Beoordeling
3.0
(1)
Verkocht
-
Pagina's
6
Geüpload op
23-05-2018
Geschreven in
2017/2018

Dit is een uitgebreide samenvatting van het 8e hoorcollege van experiment & statistiek. Hierin komen de volgende onderwerpen aan bod: correlatie, causatie, lineaire regressie, regressielijn, SSresiduen, parameters , onzekerheid, variantie, SSregressie, SStotaal, determinatiecoëfficiënt, toetsen lineaire regressie, aannames, ANOVA, toetsingsgrootheid, F, F-verdeling, SPSS, betrouwbaarheidsinterval, voorspellingsinterval, aannames controleren etc.

Meer zien Lees minder
Instelling
Vak

Voorbeeld van de inhoud

Hoorcollege 8, relaties
Pearson correlatie is voor continue variabelen.
Correlatie & causatie, als je ziet dat twee zaken met elkaar samenhangen (correleren) zijn mensen
vaak geneigd om te concluderen dat de ene variabele de oorzaak is van de andere variabele. Dit
oorzakelijk verband kan weleens verkeerd opgevat worden en de volgende fout opleveren:
- Omdraaien van de richting van causaliteit: “Hoe harde de wieken van een molen draaien,
hoe sterker de wind is. Dus: wind wordt veroorzaakt door het draaien van de wieken.”
Het kan ook zo zijn dat de twee variabelen een gemeenschappelijk oorzaak hebben en correlatie
hoeft dus niet te duiden op causatie tussen de twee variabelen waar je naar kijkt:
- Gemeenschappelijke oorzaak (confouding variables): “In de periode waarin er meer ijs
wordt verkocht overlijden er meer mensen aan verdrinking. Dus: ijsjes veroorzaken
verdrinking.” Het klopt hier inderdaad dat er meer mensen aan verdrinking overlijden
als er veel ijs gegeten wordt, maar de oorzaak van deze verdrinking is niet ijs. De
gemeenschappelijke oorzaak is de temperatuur, waardoor er meer ijs gegeten wordt en
meer aan waterrecreatie gedaan wordt.
Bovenstaande voorbeelden lijken erg dom, maar ze geven goed de essentie van de fouten aan. Als
we nu kijken naar de volgende observatie: “In een grote database met expressiedata geldt: als
transcriptiefactor A een hoge expressie heeft, dan is de expressie van eiwit B gemiddeld ook hoog.”
Hieruit kan je concluderen dat: “Transcriptiefactor A het gen van B reguleert.” Maar dat hoeft
helemaal niet zo te zijn. Je kan hier alleen concluderen dat er een correlatie is. Zie interleaf 8 voor
meer informatie hierover.
Lineaire regressie, we kunnen nu voorspellen of er een lineair
verband is, maar vaak wil je ook kunnen voorspellen wat de
waarde van Y is als je waarde van X al weet (als er een lineair
verband is). We zagen eerder dat het leek of de bloeddruk
toenam met het gewicht en de vraag is nu of je iemands
bloeddruk kan voorspellen als je zijn gewicht weet. Rechts zie je
de data van dit onderzoek nog eens weergegeven en om te
voorspellen wat iemand zijn bloeddruk is op basis van zijn
gewicht, trek je een lijn door al je meetpunten heen. Dat is de regressielijn en die is rechts
weergegeven. Deze lijn beschrijft het verband tussen X en Y op de best mogelijke manier.
Regressielijn, de formule voor een rechte lijn is: 𝑦 = 𝑎 + 𝑏𝑥. Op de middelbare school je heb je
echter 𝑦 = 𝑎𝑥 + 𝑏 geleerd en je moet dus goed onthouden dat parameters 𝑎 en 𝑏 nu dus anders
zijn. In het geval van 𝑦 = 𝑎 + 𝑏𝑥 geeft 𝑎 het snijpunt met de Y-as aan en 𝑏 is de richtingscoëfficiënt.
De richtingscoëfficiënt geeft aan hoeveel je omhoog gaat als je één stapje opzij zet. De precieze
definitie van de regressielijn is: de rechte lijn waarvoor de kwadratensom het kleinst is:
𝑛
2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 = ∑(𝑌𝑖 − (𝑎 + 𝑏𝑋𝑖 ))
𝑖=1
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 wordt ook wel 𝑆𝑆𝑒𝑟𝑟𝑜𝑟 genoemd en de regressielijn
is dus de lijn waarbij alle afstanden van de punten tot de lijn
opgeteld het kleinst zijn. In de formule zie je dit ook
weergegeven doordat je van elk punt de Y-waarde neemt en
daar de lijn vanaf trekt, waardoor je de afstand van het
betreffende punt tot de lijn krijgt. Deze afstand kwadrateer je
dan en tel je op bij de afstanden van de andere punten. Je kan
nu aan de hand van je berekende regressielijn voorspellingen gaan doen. Zo zie je de afbeelding
aangegeven dat een persoon van 60 kg waarschijnlijk een bloeddruk heeft van 70,27 mm/Hg.
Parameters 𝒂 en 𝒃, kun je uitrekenen aan de hand van je datapunten. Voor 𝑏 geldt:
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)
𝑏=
∑(𝑋𝑖 − 𝑋̅)2

, 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒(𝑋, 𝑌)
=
𝑠𝑋2
𝑠𝑌
= 𝑟( )
𝑠𝑋
Je ziet hier dat 𝑏 en 𝑟 met elkaar te maken hebben, maar dat ze niet hetzelfde zijn. Je ziet dan ook
dat de teller hetzelfde is als die van 𝑟, maar in de noemer staat iets anders. De helling van een
regressielijn is dus niet hetzelfde als de correlatiecoëfficiënt. Hierbij is 𝑟 een getal tussen -1 en 1,
𝑠 𝑠
waardoor 𝑏 tussen − ( 𝑌 ) en ( 𝑌 ) ligt. Verder loopt de regressielijn altijd door het punt (𝑋̅, 𝑌̅),
𝑠𝑋 𝑠𝑋
waardoor je 𝑎 uit kan rekenen door alle bekenden in te vullen in 𝑌̅ = 𝑎 + 𝑏𝑋̅.
Onzekerheid, we kunnen nu de regressielijn opstellen en aan de hand daarvan voorspellingen doen,
maar we willen ook aan kunnen geven hoe (on)zeker die voorspellingen zijn. Ook willen we toetsen
uit kunnen voeren met onze voorspellingen. Het blijkt dat je dit kan doen door een beetje op
dezelfde manier als bij 1-weg ANOVA de variantie op delen.
Opsplitsen variantie, de totale variantie (totale kwadratensom)
van Y kan je opsplitsen in twee delen: 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 +
𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 . Rechts zie je hier een samenvattend figuur van. De
totale kwadratensom is de afstand van ieder punt tot het
gemiddelde van Y (𝑌̅) en dat doe je dus voor ieder punt. Deze
lengtes kwadrateer je vervolgens en tel je bij elkaar op. Dat blijkt
hetzelfde te zijn als de standaarddeviatie van Y vermenigvuldigt
met (𝑛 − 1). Dit kan je dan weer opsplitsen in twee delen:
- 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 , hierbij neem je de afstand van elk punt op de regressielijn tot het gemiddelde. Je
kijkt dus waar de punten op de regressielijn gerepresenteerd worden en neemt de afstand
van dat punt op de regressielijn tot 𝑌̅. Deze afstanden kwadrateer je en tel je bij elkaar op.
- 𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 , hier neem je van ieder punt zijn afstand tot de regressielijn. Deze afstanden
kwadrateer je en tel je bij elkaar op.
De variatie in bloeddruk (staat op de Y-as) is er dus door twee redenen: er is variatie doordat mensen
met een verschillend gewicht een verschillende bloeddruk hebben en een deel van de variatie kan
dus verklaard worden door verschillen in gewicht. Het is echter ook zo dat mensen met eenzelfde
gewicht een verschillende bloeddruk kunnen hebben. Dat zie je in het rechter gedeelte van de
afbeelding en een ander deel van de variantie kan dus verklaard worden door zaken anders dan het
gewicht. Het eerste deel (𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 ) kan verklaard worden en het tweede deel (𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 ) kan niet
verklaard worden.
𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒
Determinatiecoëfficiënt, door de determinatiecoëfficiënt uit te rekenen: 𝑅 2 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙
kunnen we
zeggen welk gedeelte van de variatie in Y te verklaren is met de relatie tot X. In gedachte van het
voorbeeld kan je daarmee dus zeggen welk gedeelte van de variatie in bloeddruk te verklaren is met
de variatie in het gewicht. Het blijkt nu dat 𝑅 2 precies gelijk is aan 𝑟 2 . Dat is op zich wel logisch want
als 𝑟 = 1 moet het wel zo zijn dat alle variatie in bloeddruk bijvoorbeeld samenhangt met variatie in
gewicht.
Voorbeeld gewicht en bloeddruk, als we deze kennis toepassen op het voorbeeld krijgen we voor
𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = 𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑒 + 𝑆𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑒𝑛 dat 335,66 = 189,54 + 146,12. De determinatiecoëfficiënt die
189,54
hieruit volgt is 𝑅 2 = 335,66 = 0,5647 = (0,753)2 = 𝑟 2 . We kunnen dus de conclusie trekken dat 56%
van de variantie in bloeddruk verklaard kan worden door variatie in gewicht. Dat wil niet zeggen dat
gewicht de verklaring is! We moeten namelijk oppassen met causatie als we bezig zijn met correlatie.
Toetsen lineaire regressie, je kan je afvragen of er daadwerkelijk een lineair verband is, of dat de
gevonden helling van de regressielijn ook op toeval gebaseerd kan worden. Als we er vanuit gaan dat
𝛽 de ware helling is die bij het verband hoort. Dan is 𝑏 de schatting van 𝛽 op basis van de steekproef
en kunnen we de volgende hypothese toetsen 𝐻0 : 𝛽 = 0 en 𝐻𝐴 : 𝛽 ≠ 0. Nu willen we dus aan kunnen
tonen of er een significante relatie is of niet.

Gekoppeld boek

Geschreven voor

Instelling
Studie
Vak

Documentinformatie

Heel boek samengevat?
Nee
Wat is er van het boek samengevat?
H16, h17
Geüpload op
23 mei 2018
Aantal pagina's
6
Geschreven in
2017/2018
Type
SAMENVATTING

Onderwerpen

$4.18
Krijg toegang tot het volledige document:

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
7 jaar geleden

3.0

1 beoordelingen

5
0
4
0
3
1
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
brittheijmans Universiteit Utrecht
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
635
Lid sinds
8 jaar
Aantal volgers
290
Documenten
381
Laatst verkocht
2 maanden geleden

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4.4

533 beoordelingen

5
308
4
149
3
53
2
4
1
19

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Bezig met je bronvermelding?

Maak nauwkeurige citaten in APA, MLA en Harvard met onze gratis bronnengenerator.

Bezig met je bronvermelding?

Veelgestelde vragen