Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
Samenvatting

Samenvatting tentamenstof Statistische Modellen 2 (PABA2058)

Beoordeling
4.0
(1)
Verkocht
18
Pagina's
38
Geüpload op
06-03-2025
Geschreven in
2024/2025

Samenvatting van de hele tentamenstof van het vak statistische modellen 2. Het document bevat alle literatuur en de (tot nu toe) aantekeningen van de colleges. Wanneer alle colleges geweest zijn wordt het volledige document geüpload. De literatuur is al wel compleet. De samenvatting is volledig in het Nederlands geschreven.

Meer zien Lees minder
Instelling
Vak

Voorbeeld van de inhoud

Tentamenstof Statistische Modellen 2 (PABA2058) – 2024/2025


Aantekeningen hoorcollege 1 – Regressieanalyses


Achtergrond: variabelen en modellen
• Soorten variabelen
o NOM: nominaal (’labels’)
o DUM: dummy variabelen (bv. D = 1: experimenteel, D = 0: controle) → 2 opties
o INT: interval/kwantitatieve variabele
• Welk model hoort daarbij?




Lineaire relaties
In veel onderzoekssituaties zijn er intervalvariabelen (INT) → bv. Lengte, gewicht, leeftijd,
schaalscores, vaardigheidsscores, etc. Vanuit een wetenschappelijke theorie hebben we vaak
verwachtingen over hoe variabelen gerelateerd zijn. Je wil vaak iets voorspellen. Hoe kunnen we
een relatie uitdrukken?
Mogelijk door een spreidingsdiagram (scatterplot): alle punten op een grafiek tegenover elkaar
zetten, en kijken naar de vorm. Een lineair model werkt goed in de praktijk, het blijkt dat veel
relaties tussen twee intervalvariabelen redelijk met een lineair verband zijn samen te vatten. Een
lijn wordt beschreven door een helling. Dit getal (=parameter) geeft richting van een relatie weer,
en interpretatie aan een relatie. Er zijn verschillende lijnen mogelijk → je kiest degene die ook een
maat voor een sterke relatie geeft.
• Kleinste kwadratensom residuen:
o Bereken alle residuen (= afstanden punten tot de lijn)
o Kwadrateer alle residuen
o Tel al deze gekwadrateerde residuen bij elkaar op
o Kies de lijn zodat deze som zo klein mogelijk is
→ zelf rekenen hoeft niet, dit doet de computer. Meer zodat je een beeld krijgt van wat er gebeurt.
• Pearson correlatie:
o Maat voor sterke lineaire relatie
o Nulhypothese bij t-toets: H0: R = 0 (geen relatie)
o P < 0.001 → significante relatie: onwaarschijnlijk dat we een verband vinden als dit
verband er in de werkelijkheid er niet is → dus niet gewoon ‘het is waar’!
o Correlatie kan positief of negatief zijn
o Kwadraat van de correlatie: gemeenschappelijke variantie

, o Bv. Correlatie= -0.88, variantie = (-0.88)^2 = 0.774 → 77% variantie gemeenschappelijk:
dus zoveel overlap tussen de variabelen, zoveel procent van de verschillen kun je
voorspellen

Significantietoetsen
• Nulhypothese: een populatiegrootheid heeft een bepaalde waarde (vaak 0, geen verschil,
maar kan ook zijn bv. Gemiddelde van 50 ofzo)
• Alternatieve hypothese: de populatiegrootheid heeft die waarde niet (groter, kleiner, ongelijk)
• Doel statistisch toetsen: probeer de nulhypothese te verwerpen (belangrijk, nooit aannemen!
Want je weet het nooit zeker)

• Toetsingsgrootheid uitrekenen, en dit verhouden aan wat we weten uit de populatie. Hoe
bijzonder is dit wat we gevonden hebben?
• P-waarde: ‘de kans om een uitkomst te vinden zo extreem of nog extremer dan het gevonden
effect als H0 waar zou zijn’ → dus hoe kleiner de p, hoe sterker het bewijs tegen de
nulhypothese, hoe onwaarschijnlijker de nulhypothese.
• De waarde van p hangt af van het gekozen significantieniveau alfa
• Hoe interpreteer je de uitkomst van de significantietoets?
o P < alfa: significant → er lijkt bewijs tegen de nulhypothese
o P > alfa: niet significant → geen idee of er een populatie-effect is
o Wel voorzichtig interpreteren! Er is veel onzekerheid bij statistiek

Statistisch model
• Relatie tussen variabelen in de populatie:
o Y = score op afhankelijke variabele y
o X = score onafhankelijke variabele x
o E = residu (error, afwijking)
o Bo = intercept (kruising/snijpunt met de x-as)
o B1 = helling (slope) → hoe steil gaat de lijn)
• In werkelijkheid heb je deze lijn niet precies, dan zou je de data van alle mensen moeten
hebben, dus deze lijn die schat je gewoon. Dit gebeurt met de kleinste kwadratensom
methode
• De geschatte regressielijn is dan: y = b0+b1x (denk aan y=ax+b)
• Dit model betekent niet dat alles perfect moet zijn, gewoon globaal. Het hoeft niet allemaal
op de lijn te liggen. Wel restrictie hierbij: homoscedasticiteit
• Homoscedasticiteit: gelijke variantie, de verticale spreiding is voor ongeveer alle waarden
van de x gelijk, het puntenwolkje heeft een gelijke vorm. Is dit niet het geval, dan erg voorzichtig
zijn met de interpretatie
• Deze verwachtte waarden kan SPSS allemaal uitrekenen:




o B(constant) is hier gelijk aan b0 → dus het intercept
o B Coping is hier gelijk aan b1 → dus de helling
o Helemaal rechts staat de significantie, is het significant en daarmee waarschijnlijk
ongelijk aan 0 in de populatie?

, o Als de helling significant is (onderste regel) lijkt deze variabele een voorspeller te zijn
van de andere variabele in de populatie
o Intercept is vaak inhoudelijk helemaal niet zo interessant, we hebben meer gewoon
een beginpunt nodig. Betekenis: als er helemaal geen x is (coping, gewicht, etc.) Dan
voorspellen we deze score y (depressie, lengte)

Verklaarde variantie
• Als alle punten allemaal dicht bij de regressielijn liggen:
o Veel kleine residuen;
o Hoge correlatie tussen variabelen;
o Hoge r^2;
o Veel verklaarde variantie
• Als de punten verder weg van de regressielijn liggen:
o Veel grote residuen;
o Lage correlatie tussen variabelen;
o Lage r^2;
o Minder verklaarde variantie
• Hoe meer variabelen je meeneemt, hoe beter het uiteindelijk te voorspellen valt
• Is geen causaal verband, alleen een relatie!

Assumpties
• Je mag alleen bepaalde toetsen doen als er aan bepaalde aannames/voorwaarden/
assumpties wordt voldaan. Anders kan je eigenlijk niet iets zeggen over de populatie, heel
voorzichtig zijn met interpretatie
• Als assumpties niet lijken op te gaan:
o Beïnvloedt standaardfouten van coëfficiënten
o Beïnvloedt waarde van statistieken (F-waarde, t-waarde)
o Beïnvloedt p-waarden
o Daardoor mogelijk verkeerde conclusies trekken
• Wat zijn de assumpties voor regressieanalyse
o Relatie y en x (x2, x3…) is lineair, er wordt een lineaire relatie verondersteld
o Residuen zijn normaal verdeeld met gemiddelde 0
o Homoscedasticiteit: de variantie van residuen is constant voor alle combinaties van
waarden voorspellers (als dit niet zo is: heteroscedasticiteit. Lichte vorm hiervan mag,
hoeft niet perfect te zijn, maar niet te sterk)
o Residuen zijn onafhankelijk: scores van participanten zijn onafhankelijk (random
sample)
• Als assumpties wordt geschonden:
o Probeer een transformatie van de voorspeller of een robuuste versie van regressie →
hoef je niet te kennen, wel fijn te weten als je zelf onderzoek doet
o Niet lineariteit: niet-lineaire regressie
o Afhankelijke residuen: multi-level regressie
o Heteroscedasticiteit: gewogen kleinste kwadratenregressie

Bij meerdere voorspellers:
• Je wil dat ze sterk samenhangen met de onafhankelijke variabele (y), en dat er juist geen sterke
samenhang is tussen de andere afhankelijke variabelen (x)

, Literatuur bij college 1:



9.1 - Lineaire relaties
We noemen y de responsvariabele en x de verklarende variabele. We analyseren hoe de waarden
van y veranderen van de ene subgroep van de populatie naar de andere, afhankelijk van de waarde
van x.
De formule y=a+bx beschrijft de waarnemingen van y als een lineaire functie van de
waarnemingen van x. Deze formule wordt weergegeven als een rechte lijn met helling b en een y-
intercept a. In de context van regressieanalyse worden a en b regressiecoëfficiënten genoemd.
Wanneer de lijn stijgt (dus y toeneemt als x toeneemt), spreken we van een positieve relatie.
Wanneer b negatief is, spreken we van een negatieve relatie.
Een model is een eenvoudige benadering van de relatie tussen variabelen in de populatie. De
lineaire functie biedt een eenvoudig model voor de relatie tussen twee kwantitatieve variabelen.

9.2 - De least squares voorspellingsvergelijking
De gegevenswaarden (x,y) van een bepaald onderwerp vormen een punt ten opzichte van de x- en
y-as. Een weergave van de n waarnemingen als n punten heet een spreidingsdiagram (scatterplot).
De steekproefvergelijking wordt de voorspellingsvergelijking genoemd, omdat deze een
voorspelling y^ geeft voor de responsvariabele bij een bepaalde waarde van x. De formules voor a
en b zijn:




Een uitbijter is een waarneming die ver van de trend van de rest van de gegevens ligt. Dit kan
ervoor zorgen dat de regressielijn afwijkt van het algemene patroon van de punten.
Een waarneming wordt influential genoemd als het verwijderen ervan leidt tot een grote
verandering in de voorspellingsvergelijking. Voorspellingsfouten, oftewel het verschil tussen y en
het gemiddelde van y, worden residuen genoemd.

De kleinste-kwadraten schattingen van a en b zijn de waarden die de voorspellingsvergelijking
opleveren waarbij de som van de kwadraten van de residuen minimaal is. Naast het minimaliseren
van fouten, heeft de kleinste-kwadratenlijn enkele eigenschappen: sommige residuen zijn
positief, andere negatief, maar de som ervan is altijd nul. De lijn gaat bovendien altijd door het
punt (xˉ,yˉ) (het gemiddelde van x en y).

9.3 - Het lineaire regressiemodel
Voor het lineaire model y=α+βx geldt dat elke waarde van x correspondeert met precies één
waarde van y. Een dergelijk model noemen we deterministisch. Dit is echter onrealistisch in
sociaalwetenschappelijk onderzoek, omdat we niet verwachten dat alle individuen met dezelfde
x-waarde exact dezelfde y-waarde hebben. In plaats daarvan variëren de y-waarden.
Een probabilistisch model houdt rekening met deze variabiliteit in y bij elke waarde van x.
Het symbool E staat voor de verwachte waarde. E(y) geeft het gemiddelde aan van een
conditionele verdeling van y.

Een regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van de
responsvariabele verandert afhankelijk van de waarde van de verklarende variabele.

Geschreven voor

Instelling
Studie
Vak

Documentinformatie

Geüpload op
6 maart 2025
Bestand laatst geupdate op
17 maart 2025
Aantal pagina's
38
Geschreven in
2024/2025
Type
SAMENVATTING

Onderwerpen

$10.38
Krijg toegang tot het volledige document:

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
1 maand geleden

4.0

1 beoordelingen

5
0
4
1
3
0
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
ellen1503 Rijksuniversiteit Groningen
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
229
Lid sinds
2 jaar
Aantal volgers
1
Documenten
8
Laatst verkocht
7 uur geleden

4.5

12 beoordelingen

5
7
4
4
3
1
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Bezig met je bronvermelding?

Maak nauwkeurige citaten in APA, MLA en Harvard met onze gratis bronnengenerator.

Bezig met je bronvermelding?

Veelgestelde vragen