Hoorcollege 1 – 09-02-26
Variabelen (meetniveau):
- Afhankelijk
Ratio = gelijke afstanden tussen waarden met een absoluut nulpunt (0 betekent niets,
dus bijvoorbeeld gewicht, lengte of inkomen).
Ordinaal = categorieën met een volgorde, maar zonder gelijke afstanden tussen deze
categorieën (opleidingsniveau; lager, middelbaar, hoger).
Interval = gelijke afstanden tussen waarden, maar geen absoluut nulpunt (0 betekent
wel iets dus bijvoorbeeld temperatuur, want 0 graden is niet de afwezigheid van
temperatuur).
- Onafhankelijk:
Nominaal = je kan categorieën onderscheiden binnen de variabelen, zonder volgorde
of rangorde (blond en bruin)
Dichotoom = nominaal, maar slecht 2 categorieën (jongens en meisjes)
General Linear Model (Dit zijn allemaal bijzondere gevallen van het GLM):
Karakteristieken algemene lineaire model (GLM):
- Data = Model + Error
-
- Dus een lineaire relatie van predictoren, in combinatie met een regressiecoefficent.
- Lineair model = een model met sekse en leeftijd (of een van de twee), in combinatie
met de resultaten die we kregen voor lengte, en het model is niet perfect voorspellend.
Je zal altijd een voorspellingsfout hebben ook.
- In woorden: Een afhankelijke variabele Y (minimaal interval) die kan worden
verklaard door een lineaire combinatie van predictoren in combinatie met een regressie
coëfficiënt (lineair model). Het gaat om een model dat de afhankelijke variabele Y wilt
verklaren, die wil je verklaren met predictoren.
,Met een afhankelijke variabele Y (minimaal interval) die kan worden verklaard door een
lineaire combinatie van predictoren X’en (minimaal interval).
- GLM is het onderliggend model voor bijvoorbeeld de t-toets, ANOVA, ANCOVA,
multipele regressie. -> Alle 5 technieken van hierboven passen ook in dit model.
• Dus 1 onafhankelijke variabele (lengte) (minimaal interval meetniveau), kan worden
verklaard door een lineaire combinatie (combinatie van predictoren opgeteld en met de
b coëfficiënt als regressie coëfficiënt, die het effect aangeeft van het variabele gegeven
over de variabele in het model).
- Schatting van parameters met kleinste kwadraten methode.
- Voor toetsing parameters geldt de voorwaarde van onafhankelijke steekproeven (en
aselect). -> Voorwaarde correct kunnen schatten van de regressiecoëfficiënt.
(SCRIPTIE: Bijna onmogelijk om een aselecte steekproef te trekken).
- Statistische assumpties voor schatting en toetsing:
• Normaalverdeelde error (residuen)
• Homoscedasticiteit (gelijke varianties)
One-sample t-test
• Vraag: is de gemiddelde lengte 170 cm?
Nulhypothese is
Nulhypothese toetsing (NHST):
meestal: geen
verschil en geen
relatie.
Hoe gericht je
hypothese is, is
gekoppeld aan de
eenzijdige of
tweezijdige toetsing.
Alpha is 0,05 en het
geeft aan wat voor
maximale kans je
hebt op het maken
Nulhypothese, significantieniveau van een fout.
,Standaardfout SE en toetsingsgrootheid t
Aantal – Gemiddelde – Standaardafwijking - Standaard fout
(= standaardafwijking gedeeld door de wortel van de steekproefomvang)
• Het steekproefresultaat in combinatie met de testwaarde geeft de toetsingsgrootheid
(t). Die toetsingsgrootheid heeft ook een overschrijdingskans en daarmee kan ook een
betrouwbaarheidsinterval worden.
Normaalverdeling = de verdeling van steekproefgemiddelden bij oneindig veel steekproeven
uit dezelfde populatie. -> die verdeling heeft een gemiddelde, en dat is het
populatiegemiddelde en die verdeling heeft een spreiding en dat is de spreiding van
stewekproefgemiddelden (dus bij oneindig veel steekproeven uit dezelfde populatie) dat is de
standaardfout (= spreiding in een steekproevenverdeling -> de verdeling van gemiddelden als
je uit een populatie oneindig veel steekproeven trekt en bij elke steekproef het gemiddelde
weer vaststelt).
Beslissing met overschrijdingskans p:
De overschrijdingskans wordt gegeven door drie decimalen achter de komma.
Conclusie: Het populatiegemiddelde van de lichaamslengte van de scholieren in Nederland is
niet gelijk aan 170 centimeter.
, Betrouwbaarheidsinterval:
- Het werkelijke verschil tussen de testwaarde (test value) en het populatiegemiddelde
ligt, op basis van deze steekproefgegevens, met een betrouwbaarheid van 95% tussen -
5.12 en -1.50.
- Het populatiegemiddelde ligt, op basis van deze steekproefgegevens, met een
betrouwbaarheid van 95% tussen 164.88 (= 170 - 5.12) en 168.50 (= 170 – 1.50) cm.
→ 95%-betrouwbaarheidsinterval populatiegemiddelde: [164.88, 168.50]
Interpretatie 95% betrouwbaarheidsinterval:
De interpretatie hiervan is niet geheel intuïtief. Hierboven in het plaatje zie dan ook 50
steekproeven, en elke steekproef heeft een gemiddelde en daarom heen een 95%
betrouwbaarheidsinterval. Die verticale streepjes zijn de betrouwbaarheidsintervallen. Het
stippellijntje is het werkelijke verschil. Elke keer zie je of dat werkelijke verschil wel of niet
in dat interval past. -> er zijn er hier 3 die totaal buiten die testwaardes zitten. Dus stel je voor
dat het werkelijke verschil het stippellijntje is, dan zal je in 47 van de 50 keer een correcte
conclusie trekken. Maar als je toevallig de steekproef hebt met de pijltjes, had je de
nulhypothese verworpen en dat was dan een verkeerde conclusie geweest.
• Dus het aantal verkeerde conclusies met de verwerping van de nulhypothese beperken
we tot die 5%.
• Met replicatieonderzoek kan je de kans op een verkeerde verwerping van de
nulhypothese verkleinen -> onderzoek meerdere keren uitvoeren -> meer kans op
juiste conclusies trekken.