Samenvatting

Samenvatting tentamenstof Statistische Modellen 2 (PABA2058)

Name: Samenvatting tentamenstof Statistische Modellen 2 (PABA2058)
SKU: doc_7432765
Rating: 4.00 (1 reviews)
Author: ellen1503

Beoordeling

4.0

(1)

Verkocht

Pagina's

Geüpload op

06-03-2025

Geschreven in

2024/2025

Samenvatting van de hele tentamenstof van het vak statistische modellen 2. Het document bevat alle literatuur en de (tot nu toe) aantekeningen van de colleges. Wanneer alle colleges geweest zijn wordt het volledige document geüpload. De literatuur is al wel compleet. De samenvatting is volledig in het Nederlands geschreven.

Meer zien Lees minder

Instelling

Vak

Voorbeeld van de inhoud

Tentamenstof Statistische Modellen 2 (PABA2058) – 2024/2025

Aantekeningen hoorcollege 1 – Regressieanalyses

Achtergrond: variabelen en modellen
• Soorten variabelen
o NOM: nominaal (’labels’)
o DUM: dummy variabelen (bv. D = 1: experimenteel, D = 0: controle) → 2 opties
o INT: interval/kwantitatieve variabele
• Welk model hoort daarbij?

Lineaire relaties
In veel onderzoekssituaties zijn er intervalvariabelen (INT) → bv. Lengte, gewicht, leeftijd,
schaalscores, vaardigheidsscores, etc. Vanuit een wetenschappelijke theorie hebben we vaak
verwachtingen over hoe variabelen gerelateerd zijn. Je wil vaak iets voorspellen. Hoe kunnen we
een relatie uitdrukken?
Mogelijk door een spreidingsdiagram (scatterplot): alle punten op een grafiek tegenover elkaar
zetten, en kijken naar de vorm. Een lineair model werkt goed in de praktijk, het blijkt dat veel
relaties tussen twee intervalvariabelen redelijk met een lineair verband zijn samen te vatten. Een
lijn wordt beschreven door een helling. Dit getal (=parameter) geeft richting van een relatie weer,
en interpretatie aan een relatie. Er zijn verschillende lijnen mogelijk → je kiest degene die ook een
maat voor een sterke relatie geeft.
• Kleinste kwadratensom residuen:
o Bereken alle residuen (= afstanden punten tot de lijn)
o Kwadrateer alle residuen
o Tel al deze gekwadrateerde residuen bij elkaar op
o Kies de lijn zodat deze som zo klein mogelijk is
→ zelf rekenen hoeft niet, dit doet de computer. Meer zodat je een beeld krijgt van wat er gebeurt.
• Pearson correlatie:
o Maat voor sterke lineaire relatie
o Nulhypothese bij t-toets: H0: R = 0 (geen relatie)
o P < 0.001 → significante relatie: onwaarschijnlijk dat we een verband vinden als dit
verband er in de werkelijkheid er niet is → dus niet gewoon ‘het is waar’!
o Correlatie kan positief of negatief zijn
o Kwadraat van de correlatie: gemeenschappelijke variantie

, o Bv. Correlatie= -0.88, variantie = (-0.88)^2 = 0.774 → 77% variantie gemeenschappelijk:
dus zoveel overlap tussen de variabelen, zoveel procent van de verschillen kun je
voorspellen

Significantietoetsen
• Nulhypothese: een populatiegrootheid heeft een bepaalde waarde (vaak 0, geen verschil,
maar kan ook zijn bv. Gemiddelde van 50 ofzo)
• Alternatieve hypothese: de populatiegrootheid heeft die waarde niet (groter, kleiner, ongelijk)
• Doel statistisch toetsen: probeer de nulhypothese te verwerpen (belangrijk, nooit aannemen!
Want je weet het nooit zeker)

• Toetsingsgrootheid uitrekenen, en dit verhouden aan wat we weten uit de populatie. Hoe
bijzonder is dit wat we gevonden hebben?
• P-waarde: ‘de kans om een uitkomst te vinden zo extreem of nog extremer dan het gevonden
effect als H0 waar zou zijn’ → dus hoe kleiner de p, hoe sterker het bewijs tegen de
nulhypothese, hoe onwaarschijnlijker de nulhypothese.
• De waarde van p hangt af van het gekozen significantieniveau alfa
• Hoe interpreteer je de uitkomst van de significantietoets?
o P < alfa: significant → er lijkt bewijs tegen de nulhypothese
o P > alfa: niet significant → geen idee of er een populatie-effect is
o Wel voorzichtig interpreteren! Er is veel onzekerheid bij statistiek

Statistisch model
• Relatie tussen variabelen in de populatie:
o Y = score op afhankelijke variabele y
o X = score onafhankelijke variabele x
o E = residu (error, afwijking)
o Bo = intercept (kruising/snijpunt met de x-as)
o B1 = helling (slope) → hoe steil gaat de lijn)
• In werkelijkheid heb je deze lijn niet precies, dan zou je de data van alle mensen moeten
hebben, dus deze lijn die schat je gewoon. Dit gebeurt met de kleinste kwadratensom
methode
• De geschatte regressielijn is dan: y = b0+b1x (denk aan y=ax+b)
• Dit model betekent niet dat alles perfect moet zijn, gewoon globaal. Het hoeft niet allemaal
op de lijn te liggen. Wel restrictie hierbij: homoscedasticiteit
• Homoscedasticiteit: gelijke variantie, de verticale spreiding is voor ongeveer alle waarden
van de x gelijk, het puntenwolkje heeft een gelijke vorm. Is dit niet het geval, dan erg voorzichtig
zijn met de interpretatie
• Deze verwachtte waarden kan SPSS allemaal uitrekenen:

o B(constant) is hier gelijk aan b0 → dus het intercept
o B Coping is hier gelijk aan b1 → dus de helling
o Helemaal rechts staat de significantie, is het significant en daarmee waarschijnlijk
ongelijk aan 0 in de populatie?

, o Als de helling significant is (onderste regel) lijkt deze variabele een voorspeller te zijn
van de andere variabele in de populatie
o Intercept is vaak inhoudelijk helemaal niet zo interessant, we hebben meer gewoon
een beginpunt nodig. Betekenis: als er helemaal geen x is (coping, gewicht, etc.) Dan
voorspellen we deze score y (depressie, lengte)

Verklaarde variantie
• Als alle punten allemaal dicht bij de regressielijn liggen:
o Veel kleine residuen;
o Hoge correlatie tussen variabelen;
o Hoge r^2;
o Veel verklaarde variantie
• Als de punten verder weg van de regressielijn liggen:
o Veel grote residuen;
o Lage correlatie tussen variabelen;
o Lage r^2;
o Minder verklaarde variantie
• Hoe meer variabelen je meeneemt, hoe beter het uiteindelijk te voorspellen valt
• Is geen causaal verband, alleen een relatie!

Assumpties
• Je mag alleen bepaalde toetsen doen als er aan bepaalde aannames/voorwaarden/
assumpties wordt voldaan. Anders kan je eigenlijk niet iets zeggen over de populatie, heel
voorzichtig zijn met interpretatie
• Als assumpties niet lijken op te gaan:
o Beïnvloedt standaardfouten van coëfficiënten
o Beïnvloedt waarde van statistieken (F-waarde, t-waarde)
o Beïnvloedt p-waarden
o Daardoor mogelijk verkeerde conclusies trekken
• Wat zijn de assumpties voor regressieanalyse
o Relatie y en x (x2, x3…) is lineair, er wordt een lineaire relatie verondersteld
o Residuen zijn normaal verdeeld met gemiddelde 0
o Homoscedasticiteit: de variantie van residuen is constant voor alle combinaties van
waarden voorspellers (als dit niet zo is: heteroscedasticiteit. Lichte vorm hiervan mag,
hoeft niet perfect te zijn, maar niet te sterk)
o Residuen zijn onafhankelijk: scores van participanten zijn onafhankelijk (random
sample)
• Als assumpties wordt geschonden:
o Probeer een transformatie van de voorspeller of een robuuste versie van regressie →
hoef je niet te kennen, wel fijn te weten als je zelf onderzoek doet
o Niet lineariteit: niet-lineaire regressie
o Afhankelijke residuen: multi-level regressie
o Heteroscedasticiteit: gewogen kleinste kwadratenregressie

Bij meerdere voorspellers:
• Je wil dat ze sterk samenhangen met de onafhankelijke variabele (y), en dat er juist geen sterke
samenhang is tussen de andere afhankelijke variabelen (x)

, Literatuur bij college 1:

9.1 - Lineaire relaties
We noemen y de responsvariabele en x de verklarende variabele. We analyseren hoe de waarden
van y veranderen van de ene subgroep van de populatie naar de andere, afhankelijk van de waarde
van x.
De formule y=a+bx beschrijft de waarnemingen van y als een lineaire functie van de
waarnemingen van x. Deze formule wordt weergegeven als een rechte lijn met helling b en een y-
intercept a. In de context van regressieanalyse worden a en b regressiecoëfficiënten genoemd.
Wanneer de lijn stijgt (dus y toeneemt als x toeneemt), spreken we van een positieve relatie.
Wanneer b negatief is, spreken we van een negatieve relatie.
Een model is een eenvoudige benadering van de relatie tussen variabelen in de populatie. De
lineaire functie biedt een eenvoudig model voor de relatie tussen twee kwantitatieve variabelen.

9.2 - De least squares voorspellingsvergelijking
De gegevenswaarden (x,y) van een bepaald onderwerp vormen een punt ten opzichte van de x- en
y-as. Een weergave van de n waarnemingen als n punten heet een spreidingsdiagram (scatterplot).
De steekproefvergelijking wordt de voorspellingsvergelijking genoemd, omdat deze een
voorspelling y^ geeft voor de responsvariabele bij een bepaalde waarde van x. De formules voor a
en b zijn:

Een uitbijter is een waarneming die ver van de trend van de rest van de gegevens ligt. Dit kan
ervoor zorgen dat de regressielijn afwijkt van het algemene patroon van de punten.
Een waarneming wordt influential genoemd als het verwijderen ervan leidt tot een grote
verandering in de voorspellingsvergelijking. Voorspellingsfouten, oftewel het verschil tussen y en
het gemiddelde van y, worden residuen genoemd.

De kleinste-kwadraten schattingen van a en b zijn de waarden die de voorspellingsvergelijking
opleveren waarbij de som van de kwadraten van de residuen minimaal is. Naast het minimaliseren
van fouten, heeft de kleinste-kwadratenlijn enkele eigenschappen: sommige residuen zijn
positief, andere negatief, maar de som ervan is altijd nul. De lijn gaat bovendien altijd door het
punt (xˉ,yˉ) (het gemiddelde van x en y).

9.3 - Het lineaire regressiemodel
Voor het lineaire model y=α+βx geldt dat elke waarde van x correspondeert met precies één
waarde van y. Een dergelijk model noemen we deterministisch. Dit is echter onrealistisch in
sociaalwetenschappelijk onderzoek, omdat we niet verwachten dat alle individuen met dezelfde
x-waarde exact dezelfde y-waarde hebben. In plaats daarvan variëren de y-waarden.
Een probabilistisch model houdt rekening met deze variabiliteit in y bij elke waarde van x.
Het symbool E staat voor de verwachte waarde. E(y) geeft het gemiddelde aan van een
conditionele verdeling van y.

Een regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van de
responsvariabele verandert afhankelijk van de waarde van de verklarende variabele.

Meld schending auteursrecht

Geschreven voor

Instelling: Rijksuniversiteit Groningen (RuG)
Studie: Pedagogische Wetenschappen
Vak: Statistische modellen 2 (PABA2058)

Alle documenten voor dit vak (18)

Documentinformatie

Geüpload op: 6 maart 2025
Bestand laatst geupdate op: 17 maart 2025
Aantal pagina's: 38
Geschreven in: 2024/2025
Type: SAMENVATTING

Onderwerpen

regressieanalyse
multivariate relaties
variantieanalyse
covariantieanalyse
logistische regressie
herhaalde metingen anova
regressieanalyse met categorische voorspellers

$10.38

Krijg toegang tot het volledige document:

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

ellen1503

4.5

(12)

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven

chantalfonk2006 Pedagogische Wetenschappen · 50 beoordelingen

1 maand geleden

4.0

1 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

ellen1503 Rijksuniversiteit Groningen

Bekijk profiel

Volgen

Verkocht

229

Lid sinds

2 jaar

Aantal volgers

Documenten

Laatst verkocht

7 uur geleden

4.5

12 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ellen1503. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor $10.38. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 50860 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Samenvatting tentamenstof Statistische Modellen 2 (PABA2058)

Voorbeeld van de inhoud

Geschreven voor

Documentinformatie

Onderwerpen

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?