Wat kun je doen met statistiek? Met statistiek kun je generaliseren, dit kan je niet zonder statistiek. We willen
geen details over effecten maar wat dit in het algemeen betekent voor mensen. Het geeft ons daarbij de
mogelijkheid om psychologische effecten te beschrijven. In de praktijk is het moeilijk om te generaliseren. Het
geeft ons een tool om te beschrijven van wat je denkt dat er gebeurd.
Statistische modellen helpen data simpel te representeren. Ook kunnen ze ons helpen om iets te voorspellen.
Een model is alsware een perspectief. Er bestaan veel symbolen en vormen en de keuze is afhankelijk van je
vraag wat je ermee wil doen. Je kunt nooit iets zeggen over alles, daarom wordt dit vanuit een bepaald
perspectief (een model) gedaan. Je probeert hiermee te beschrijven waarvan je denkt hoe de realiteit eruitziet.
Het is een toolbox waarmee je sommige aspecten van realiteit kunt beschrijven. Dit doe je in een statistisch
model. 2 meest succesvolle modellen in de statistiek:
- Normaalverdeling
- Rechte lijn (regressie: uitkomst en measurement error)
Ondanks dat gedrag lastig is om te beschrijven doen deze modellen het erg goed. Met modellen kun je een
simpele beschrijving geven van een complex fenomeen. Als je dit goed doet ben je in staat om dit fenomeen in
de toekomst te voorspellen.
Statistische modellen en verschillende definities
Model = een constructie van een object op een schaal. Je kunt er aspecten van een fenomeen mee beschrijven.
In statistiek proberen we een passend model te vinden voor de data (fit models to data): we gebruiken
statistische modellen om weer te geven wat er in de echte wereld gebeurd.
Modellen bestaan uit parameters en variabelen
o Variabelen zijn gemeten constructen (bijv. vermoeidheid) en ze variëren onder mensen uit de steekproef.
Je kunt ze manipuleren (intelligentie, gedrag). Dit zijn de facetten die we willen verklaren.
o Parameters zijn schattingen van de data en geven constante relaties tussen variabelen in het model weer
(beschrijven het figuur van het model gemiddelde, standaarddeviatie). Dit gaat dus om de vorm van
het model. We berekenen de parameters in de steekproef om de waarde in de populatie te schatten
Zelfs als het complex lijkt kan iets naar iets simpels (een model) worden teruggebracht.
Model fit
We willen achterhalen hoe goed / sterk het model fit. Hiervoor moet je kijken naar de variabiliteit in de
steekproef. Als iedereen dezelfde score heeft, is de data perfect. De scores variëren op basis van error, dit
kwantificeer je door de gemiddelde of gekwadrateerde afwijking te berekenen. Als deze afstand klen is dan
benaderd je model de populatie goed; als de variabiliteit groot is minder goed.
1
,De error uitrekenen
We moeten de deviatie weten in de data om te bepalen hoe goed een model fit.
- Het gemiddelde is de waarde waarvan de (gekwadrateerde) scores het minst afwijken (heeft de minste error)
- Hoeveelheid variabiliteit rondom een variabele (in dit geval is de variabele het gemiddelde)kan je
meten met: Variantie, Sum of Squares, standaard deviatie
Sum of squared errors
De meest simpele vorm van de variantie is de sum of squares. Het is de som van de kwadranten. De
gekwadrateerde deviaties (letterlijk: de squares) worden hierin bij elkaar opgeteld. Je hebt variabelen: scores (X),
gemiddelde (𝑥̅ ) en afwijkingen (deviations). Als je de afwijkingen (x - 𝑥̅ ) in het kwadraat doet en deze optelt,
heb je de sum of squares. Het kwadrateren is nodig omdat de som anders altijd 0 is. Je doet ze in het kwadraat
om alle negatieve getallen weg te laten. Hoe groter dit getal, hoe meer spreiding. Hoe groter een getal (n of
aantal sqaures), hoe groter de SS. Dit wordt veel gebruikt (ook in ANOVA).
Echter is het niet een hele goede maat, omdat het afhankelijk is van de steekproefgrootte. Als je een grote
steekproef hebt, wordt de sum of squares groter dan als je een kleine steekproef hebt.
Om een steekproef samen te vatten is de SS niet voldoende (juist doordat deze door meer nummer groter wordt
en dit niets zegt over de werkelijke variantie). Om tot een goede spreidingmaat te komen bereken je daarom de
Means Squares error (SS/df):
The mean squared error
Totale spreiding is afhankelijk van de steekproefgrootte. De mean of the squared errors (MSE) is niet afhankelijk
van de steekproefgrootte. Het is de sum of squares gedeeld door de vrijheidsgraden (N-1).
2
,Waarom N-1?
We delen het gemiddelde door de vrijheidsgraden (N-1), omdat we een steekproef gebruiken om het model fit te
schatten in de populatie. We verliezen 1 vrijheidsgraad omdat we het populatiegemiddelde schatten met het
steekproefgemiddelde Het gemiddelde is al 1 unit van informatie. Hiermee verlies je dus al een
vrijheidsgraad. Door -1 te doen corrigeer je dit.
Het gemiddelde als een model: variantie als simpele maat voor model fit
- Algemene principes voor model fit: Sum (SSE) of Gemiddelde (MSE) de gekwadrateerde afwijkingen
van het model. Hoe groter de waarden, hoe minder goed het model fit;
- Als je de mean als model hebt wordt de MSE (mean squared error) variantie genoemd. Als je deze wil
gebruiken neem je de gekwadrateerde variantie (standaard divaiate) zodat deze te interpreteren is. Je
kunt dan zeggen hoeveel sd’s iets afwijkt. Dit is bruikbaar in de normaal verdeling.
Bijv: Mensen zijn gemiddeld 1.58 van het gemiddelde verwijdert op deze schaal.
Standaarddeviatie = het gemiddelde/meest typische afwijking
Standaarddeviatie en vorm van de steekproefverdeling
Hoe kleiner de standaarddeviatie, hoe meer de scores verspreid zijn rondom het gemiddelde.
Standaarddeviatie en vorm van de normaalverdeling
3
, Gemiddelde en Standaardeviatie
Van steekproef naar populatie
Gemiddelde (𝑥̅ ) en SD (s) worden verkregen vanuit de steekproef, maar worden gebruikt om het gemiddelde (µ) en de
SD (𝜎) in de populatie te schatten. Je kan schatten hoe accuraat je schatting in de steekproef is voor de populatie.
De steekproefverdeling (distributie van sample means)
Het idee: je wilt een waarde in de populatie weten (gemiddelde). Deze is onbekend. Hiervoor trek je allemaal
steekproeven uit de populatie. Dit doe je een oneindig aantal keren, waardoor je verschillende steekproeven
krijgt met elk een andere waarde (in dit geval gemiddelde). De waardes liggen verspreid van elkaar.
- Een steekproef zal slechts een schatting geven van de ware populatie parameter
- Afhankelijk van de variabiliteit en steekproefgrootte zal deze schatting meer of minder precies zijn
Je neemt hiervoor aan dat:
- De populatie normaals is verdeeld
- Dat de variabiliteit van de sample means klopt
- Dat de steekproef random is (iedereen is vertegenwoordigd)
De steekproefverdeling: SE
Als je veel steekproeven trekt van een populatie kun je een steekproefverdeling maken:
- Verdeling van steekproefgroottes
- Kan de variabiliteit van de steekproefgroottes berekenen
4