College aantekeningen

Uitgebreide college aantekeningen

Beoordeling

Verkocht

Pagina's

Geüpload op

28-01-2021

Geschreven in

2019/2020

Uitgebreide college aantekeningen

Instelling

Vak

Voorbeeld van de inhoud

Samenvatting Statistische modellen 2

College 1 - Regressieanalyse
Dit college enkelvoudige regressieanalyse en multipele regressieanalyse

Welk model?
Een afhankelijke variabele/ dependent variabele is een variabele
waarover in statistiek en wetenschappelijk onderzoek een
voorspelling wordt gedaan om hypotheses te toetsen.
Een onafhankelijke variabele/ independent variabele is een
variabele die gebruikt wordt om de voorspelling op te baseren.
Bijvoorbeeld intelligentie is een afhankelijke variabele. Je kan
onderzoeken welke factoren invloed (onafhankelijke factoren)
hebben op intelligentie.

Over het algemeen heb je vaak maar 1 afhankelijke variabele. Deze
afhankelijke variabele kan verschillende meetniveau’s hebben.

Meetniveau’s
DUM = dummy variabele = Een dummy variabele is een indicator-variabele die de waarde 0 of 1 kan hebben. De
waarde 0 betekend vaak dat het niet aanwezig is of niet van toepassing. 1 betekend vaak dat het wel aanwezig is en
dus van toepassing is.
Bijvoorbeeld geslacht: 0 = man, 1 = vrouw
NOM = nominale variabele = Een nominale variabele bestaat uit meerdere categorieën (waar geen verschil zit tussen de
categorieën). Het gaat slechts op het benoemen van de bijhorende waarde.
INT = interval variabele = Een interval variabele is een variabele met heel veel verschillende waarden. Vaak steken we
van ene interval variabel als er sprake is van 7 of meer categorieën.
Bijvoorbeeld lengte, gewicht, depressie

Verschil tussen enkelvoudige en multipele regressieanalyse
Bij een enkelvoudige regressieanalyse is er sprake van 1 voorspeller, ook wel 1 onafhankelijke variabele.
Bij een multipele regressieanalyse is er sprake van meerdere voorspellers, dus meerdere onafhankelijke variabele.
Zie dikgedrukte modellen.

Regressieanalyse
Een regressieanalyse wordt gebruikt om het eﬀect te bepalen van een (of meerdere) variabelen, zoals lengte of leeftijd,
op een afhankelijke variabele.

Je kunt regressieanalyse gebruiken om:
1. Samenhang tussen 2 variabelen te bepalen
2. Verandering van de afhankelijke variabelen te voorspellen
3. Toekomstige waarden voorspellen

Er bestaan dus meerdere soorten regressieanalyses. Welke soort je gebruikt hangt dus af van het aantal variabelen
en het meetniveau waarop de variabelen gemeten zijn.

In veel onderzoekssituaties wordt er gebruikt gemaakt van intervalvariabelen. Dit betekent dat er veel verschillende
scores zijn voor verschillende individuen.
Bijvoorbeeld: lengte, gewicht, leeftijd, depressie, attitude, vaardigheidscodes op taal en rekenen etc

Vaak gaan we uit dat deze variabelen gerelateerd zijn. De relatie tussen variabel kan je onderzoeken binnen een
steekproef. Maar je kan ook de populatie onderzoeken.

Lineaire relatie
Een lijn wordt beschreven door een helling. Deze parameter geeft:
- De richting van de relatie weer
- Interpretatie aan de relatie

Er zijn alleen verschillende lijnen mogelijk.

,Spreidingsdiagram
De relatie tussen 2 variabelen kun je bekijken met een spreidingsdiagram / scatterplot. Hierbij plot je de scores van de
individuen tegen elkaar op de 2 verschillende variabelen.

Een spreidingsdiagram maken is altijd een eerste stap om te kijken naar wat voor
soort relatie het is.
Negatieve richting = hoge scores op de ene variabele gaan samen met lage
scores op de andere variabele. Afbeelding is sprake van negatieve richting.
Positieve richting = Hoge scores op de ene variabele gaan samen met hoge
scores op de andere variabele. Ook lage scores op de ene variabele gaan samen
met lage scores op de andere variabele.

Er zijn verschillende lijnen mogelijk in dit model om de relatie te weergeven. We moeten dus een lijn hebben die ook een
maat van sterkte van de relatie aangeeft. Dit kan je bereken door middel van de kleinste kwadratensom van de
residuen.
Hierbij neem je 1 variabel als referentiepunt, vaak de y variabele.
1. Bereken alle residuen = afstand van de punt tot de lijn.
2. Kwadrateer al deze residuen.
3. Tel deze gekwadrateerde residuen op.
4. Kies de lijn waarbij deze som zo klein mogelijk is.

De kleinste kwadratensom van residuen is uniek en dus is het ook een unieke lijn.

Pearson correlatie
De Pearson correlatie geeft een maat voor sterkte an de lineaire samenhang.
Analyze - Correlate - Bivariate
Bij de SPSS output krijg je een correlatie waarde met daarbij ook een t-toets.
Met de t-toets ga ja na of er iets gezegd kan worden over de populatie.
Nulhypothese bij t-toets : H0: r = 0 (geen relatie tussen de variabelen)
De p-waarde is kleiner dan 0,001 en die waarde maakt de kans klein dat de
nulhypothese waar is. Dus verwerp je de nulhypothese en daaruit kan je concluderen dat er een significante relatie is
tussen de variabelen.

Hoe sterk is deze relatie?
De kwadraat van de persons correlatie geeft een waarde voor de gemeenschappelijke variantie tussen variabelen. R2

Nulhypothesen verwerpen of aannemen?
H0: … = 0 —> geen relatie tussen …
Ha: … = geen 0 —> wel een relatie
Je kijkt dan op de gevonden p-waarde < is dan 0,05. Als dit zo is dan verwerp je de H0 en is er dus een significante
relatie.
Is de p-waarde > 0,05 dan neem de de H0 aan en is er dus geen relatie.

Statistisch model regressie analyse
y =β +βx+ε
i 0 1 i i
y = score op afhankelijke variabele y voor persoon i
i
x = score onafhankelijke variabele x voor persoon i
i
ε = residu (error, afwijking) = dit is het deel van de afhankelijke variabele dat niet verklaard kan worden door de verhalende variabele.
i
Hierdoor staat dit model spreiding toe rond de lijn. Mensen verschillen van elkaar dus niet alle punten hoeven op de lijn te liggen.

Regressiecoëﬃciënten
β = intercept = startpunt van regressielijn : de zogenaamde constante.
0
β = helling (slope) = geeft de gemiddelde toename in Y aan waneer de verklarende variabele X met 1 toeneemt.
1
De regressiecoëﬃciënten moeten geschat worden (uit de steekproef) met de kleinste kwadraten methode. Bij schattingen zit
onzekerheid en hier zitten meetfouten bij. De geschatte regressielijn is dan
b = schatter van β
0 0 yˆ i = b0 + b1 xi
b = schatter van β
1 1

,Regressieanalyse in SPSS
Analyze - Regression - Lineair
Er verschijnt een scherm waarin je onder Dependent: de afhankelijke variabele selecteert. Bij Independent(s) selecteer je
de verklarende variabele.
De output van een regressieanalyse bestaat uit drie onderdelen, namelijk de ‘model summary’, ‘ANOVA’ en
‘Coeﬃcients’.

Model summary
Het eerste blok vermeldt de correlatiecoëﬃciënt R en de determinatiecoëﬃciënt
R2. De ‘R Squared’ geeft aan hoeveel van de variantie in de afhankelijke variabele
(gewicht) verklaard wordt door de verklarende variabelen.
Als je een meervoudige regressie uitvoert kijk je naar de ‘Adjusted R Square’ in
plaats van ‘R Square’ omdat meer verklarende variabelen altijd meer van de
variantie kunnen verklaren. De adjusted R2 corrigeert hiervoor.
Hoge R2
Als punten allemaal dicht bij regressielijn
• Veel kleine residuen:
• Hoge correlatie tussen variabelen (BDI en coping)
• Veel verklaarde variantie

Lage R2
Als punten verder weg van regressielijn
• Veel grote residuen:
• Lage correlatie tussen variabelen (BDI en coping)
• Minder verklaarde variantie

ANOVA
Het tweede blok toetst de significantie van het regressiemodel. Dat
laat zien hoe groot de kans is dat alle regressiecoëﬃciënten in
werkelijkheid nul zijn en de uitkomsten van deze analyse dus op
toeval berusten.
Hiervoor wordt een F-toets uitgevoerd met vrijheidsgraden 1 (het
aantal verklarende variabelen) en 28 (het aantal observaties minus
het aantal verklarende variabelen minus één).

De kans om een waarde van 132,863 of groter te observeren met deze vrijheidsgraden is kleiner dan ,001, zoals af te
lezen in de ‘Sig.’-kolom. Daarom kunnen we concluderen dat dit regressiemodel significante verklarende variabelen
bevat.

Coeﬃcients-tabel
Unstandardized coeﬃcients:
waarde van b0 (= 54.3) bij Constant
waarde van b1 (= – 5.2) bij coping
Invullen in BDI = b0 + b1*coping geeft de geschatte regressievergelijking:
BDI = 54.3 – 5.2*coping. Hiermee kan je voorspellingen doen voor in de
toekomst door waardes in te vullen.

Om te testen of dit eﬀect significant is, wordt er een t-toets uitgevoerd voor beide variabelen.
H0: β0 = 0 Er wordt getoetst of populatie intercept gelijk is aan 0.
t = 30.3, p < 0.001 —> intercept waarschijnlijk geen 0 in populatie
H0: β1 = 0. Er wordt getoetst of populatie regressiecoeﬀcicient gelijk is aan 0.
t = –16.7, p < 0.001 —> waarschijnlijk geen 0 in populatie en dus zeer waarschijnlijk dat coping een voorspelling is van
BDI

Standardized coeﬃcients : waarden van coëﬃciënten als alle variabelen gestandaardiseerd zijn. Dit betekend dat je ze
een gemiddelde van 0 geeft en een standaarddeviatie van 1. Hierdoor zijn verschillende variabelen vergelijkbaar als je
meerdere voorspellers hebt op verschillende schalen.
Als je maar 1 voorspeller hebt, zoals in dit voorbeeld, dan is de Beta gelijk aan de correlatie.

, Assumpties regressieanalyse
Deze assumpties heb je nodig om iets te kunnen zeggen over de populatie, deze kan je niet direct observeren.
1. De relatie tussen de afhankelijke en de onafhankelijke variabelen is lineair.
• Checken met spreidingsdiagram.
2. De residuen zijn normaal verdeeld
• Checken met histogram van de residuen
3. Homoscedasticiteit
• Checken met spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen.
4. Residuen zijn onafhankelijk / de score van de participanten zijn onafhankelijk
• Moeilijk te checken

Als assumpties niet lijken op te gaan
- Geen eﬀect op schattingen regressiecoëﬃciënten
- Beïnvloedt p-waardes (en eventueel conclusies)
- Beïnvloedt standaardfouten van coëﬃciënten
- Beïnvloedt f en t waardes

p = 0.046 kan leiden tot ten onrechte verwerping van H0 (Type I fout)

Homoscedasticiteit
= Voor alle waarden van x hebben de punten verticaal dezelfde spreiding
In alle data wel lichte vorm van heteroscedasticiteit aanwezig (als het maar niet te ernstig is).

Residuen normaal verdeeld

Lineariteit en homoscedasticiteit
Checken met spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen. Assumptie aannemen als
de residuen random verspreid rond de lijn 0 liggen.

Niet-lineariteit en heteroscedasticiteit
Niet lineair Wel lineair
Wel homoscedastisch Heteroscedastisch

Meld schending auteursrecht

Gekoppeld boek

Alan Agresti, Barbara Finlay Statistical Methods for the Social Sciences, Global Edition

Uitgave:april 2018
ISBN:9781292220314
Druk:5

Geschreven voor

Instelling: Rijksuniversiteit Groningen (RuG)
Studie: Bachelor Pedagogische Wetenschappen
Vak: Statistische Modellen 2 (PABA2058)

Alle documenten voor dit vak (11)

Documentinformatie

Geüpload op: 28 januari 2021
Aantal pagina's: 35
Geschreven in: 2019/2020
Type: College aantekeningen
Docent(en): Dr. w.j. post ,dr. m.j. warrens
Bevat: Alle colleges

Onderwerpen

statistische modellen

$8.38

Krijg toegang tot het volledige document:

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

yulaschreuder

2.3

(4)

Maak kennis met de verkoper

yulaschreuder Rijksuniversiteit Groningen

Bekijk profiel

Volgen

Verkocht

Lid sinds

6 jaar

Aantal volgers

Documenten

Laatst verkocht

2 jaar geleden

2.3

4 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper yulaschreuder. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor $8.38. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 51658 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Uitgebreide college aantekeningen

Voorbeeld van de inhoud

Gekoppeld boek

Geschreven voor

Documentinformatie

Onderwerpen

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?