Een model is de representatie van de realiteit , waarbij
niet-essentie Cruis) buiten beschouwing wordt gehouden
de basis van alle modellen
bo bx byx +.... +
y + + e
=
, ,
Statistiek is niet zo goed in model fit (of een model past),
Weegt de verbeterd fit op
maar wel in het bepalen welk van de 2 modellen het 7
alle kleine modellen zitten
tegen extra complexiteit,
beste past nested model ook in het model
:
↑ grotere is het alle toestanden
want in :
Y =
bo + b ,, + bez en moeite waarde
Model comparison approach :
zit
ook : bo + b ,
x,
alle traditionele tests kunnen herschreven worden als model
comparison
·
·
voorkomt P-hacking
·
kan meer dan traditionele tests
Wordt de variatie in Cafhankelijke variabele) verklaard
door verschillen in Conafhankelijke variabele)
dit kun
je testen
met :
·
two-sample +- test
·
ANOVA (2 groepen)
·
Simple linear
regression
·
Model comparison model 1 : Y = bo
model 2 :
y = bo + b GENDER
,
Stel er komt onafhankelijke
een
nog
variabele
bij dan kun jetesten met :
·
Multiple regression model
·
ANCOVA
· Model comparison < model 1
: = bo + b ,
GENDER kannatuurlijk ook andersom licht
,
eraan
model 2 bo + b
:
y =
.
GENDER +
bLAGE welke variabele we al wel weten
Wanneer je ineens 2 onbekende onathankelijke
variabelen dan kan
toevoegt je dit niet testen
met traditionele test Je kan dan alleen
.
per
variabele testen of deze O is .
Om ze samen te testen
gebruikje : ·
·
Model comparison
-
> model 1 : bo + : b GENDER
.
+
bLAGE
model 2 : bo + = b GENDER.
+
bLAGE + by PARENT + byAGE CHILD
-
De P-waarde vertelt hoegroot de kans dat
je je resultaat perfoeval hebt gevonden
>
Strenge regels voor P-waardes :
Je een P-waarde maar 1 keer berekenen
mag
·
de
·
Er moet voldaan
zijn assumpties
aan
·
Je moet de
steekproefgrootte specificeren
P-hacking : heel veel statistische tests uitvoeren op data en alleen
die resultaten vermelden die
significant zijn .
Elke parameter heelt een test en daarom dus ook een p-waarde
, Wat kun gebruiken om te zien hoe
groot een effect is
je .
E
·
Schatting
↳ Cohen's d Alles met FK erbij
gemiddelden ,
sd correlaties effect size
, ,
, en BHI
·
Grafische analyse staat op de formulekaart
·
Model comparison die
je bij je tentamen krijgt
wordt niet besproken in Stats 3
.
Bayesiaanse Statistiek (maar is lastig in
gebruik)
College 2 (Multiple regression
Stappen bij Simple
Linear
Regression :
. Maak
1 een scatter plot met de bivariate data
2 Teken die zo
. een rechte
lijn goed mogelijk past
door de puntenwolk Cordinary least squares criterion OLS) =
3
. Stel een
vergelijking op bij deze rechte lijn
in de vorm :
y = bo + b ,
x
pinoutput
BHI ent-test
De formules die de OLS methode horen BHI B: b, ++*. SE(b,
bij : > voor
FK b .
=
r . bo :
j
-
bij t-statistic voor B = 0 : + = b,
SE(bi)
jegebruikt hierbij
oftewel we
zijn gemiddelden, sd en correlatie nodig df = n-2
Algemene regel voor df :
Een
df geschatte parameters
= n-aantal significantietoets werkt alleen als
SLR worden er 2 parametersgeschat alle assumpties voldaan
Bij er aan is
,
namelijk afhankelijk en onafhankelijk dus df = n-2
Stappen bij Multiple Linear Regression :
1 Maak scatterplot multivariate data
. een van
je
2 Teken . een rechte
lijn die zo
goed mogelijk past c
bij 2 predictoren 3D-plot dus :
,
er wordt ook
door de puntenwolk (volgens OLS) niet snel meer dan 2 predictoren aan ons
gevraagd
. Stel
3 een
vergelijking op bij deze rechte lijn
de bo + b,, + bes
1 in vorm
y :
De volgende formules horen bij de OLS methode
b
, =
bdy b :
b
FK
bo =
ij-b 5 , ,
-
beste
.
b * en b *
zijn gestandaardiseerde regressie coefficiënten
*
* Vyx Vyxz
geldt dat de helling (b.) het effect van die
.
b ryxz :x b ryx,"x x SLR
-
Bij
-
=
, ,
x ,
=
1 -
E 1 -
Ve
variabele op de afhankelijk variabele beschrijft .
Bij MLR geldt dat de helling (b be etc ) het effect , ,
. van een
Hoe goed voorspellen/schatten alle onafhankelijke variabele gecontroleerd de effecten voor
onafhankelijke Variabelen gezamenlijk y ? van de andere explanatory variables in het model
beschrijft
R b ,, + bxx de correlatie tussen jjx
Vyjxx
+ daarom worden b
y
=
= a = en
> ,
en be
partial regression coefficients genoemd
R
percentage verklaarde variantie van y
> =
bz =
byz . 134 partiële regressiecoëfficiënt van ( als , z en y al
(constant)
in het model zitten
door alle
onafhankelijke samen
R3 Vy ry-2 ry, ryzor2 of R by
+
by
·
Fl = =
,
+ voorbeeld R
1 -
E Stel R2 0 53 =
.
,
dan wordt 53 % van alle variantie
SSModel in
y verklaart door de onafhankelijke variabelen
niet op de formulekaart maar wel handig bij output R =
SSTotal