1
1. Categorische variabelen: hebben als waarden geen getallen, maar alleen kenmerken of categorieën
a. Nominaal: zonder rangorde
b. Ordinaal: met rangorde
2. Kwantitatieve variabelen: variabelen die als waarde getallen aannemen
a. Discreet: slechts bepaalde waarden kunnen voorkomen, hele getallen
b. Continu: oneindig veel mogelijkheden in waarde
Proportie: aantal observaties in categorie / n (ligt altijd tussen 0 en 1)
Skewed to the right: rechter tail langer dan de linker tail modus, mediaan, gemiddelde
Skewed to the left: linker tail langer dan de rechter tail gemiddelde, mediaan, modus
Gemiddelde (mean):
x
x
n
Standaarddeviatie: geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde.
( x x ) 2
s
n 1
Variantie: s², standaarddeviatie is echter makkelijk in gebruik
Empirical rule: als de verdeling klokvormig is dan:
xs
1. Ligt 68% van de observaties 1 standaarddeviatie van het gemiddelde af, dus
x 2s
2. Ligt 95% van de observaties 2 standaarddeviaties van het gemiddelde af, dus
x 3s
3. Ligt 99% van de observaties 3 standaarddeviaties van het gemiddelde af, dus
z-scores: hoeveel standaarddeviaties ligt een observatie van het gemiddelde af? De z-
score kan dus zien hoe uitzonderlijk een observatie is. De z-score gebruik je om te
ontdekken hoe groot de kans is dat we die observatie vinden. De manier om te zien
hoeveel procent onder een bepaalde z-score ligt: Tabel A
Observatie Gemiddelde
z
Standaardd eviatie
Percentielen: geeft aan hoeveel procent van de observaties onder een bepaald punt ligt. Het p-de percentiel is
een waarde waarbij p procent van de observaties onder die waarde vallen. Het 25e percentiel is Q1, het 50e
percentiel is Q2/de mediaan en het 75e percentiel is Q3. IQR is de middelste 50% van de data: Q3-Q1. Een
observatie is een outlier als het meer dan 1.5 keer de IQR onder het eerste kwartiel of boven het derde kwartiel
ligt.
Verband tussen variabelen
1. Response variables (dependent) Y
2. Explanatory variables (independent) X
Associatie: waarde van ene variabele hangt samen met waarde andere variabele. Als je de associatie tussen
kwantitatieve variabelen wilt weten, maak je vaak een scatterplot. Positieve associatie: als X omhoog gaat, dan
gaat Y ook omhoog. Negatieve associatie: als X omhoog gaat, gaat Y omlaag.
Correlatie: beschrijft de sterkte van een lineair verband. Wordt uitgedrukt in r die altijd tussen -1 en +1 ligt. Hoe
dichter bij de correlatie van -1 of +1, hoe sterker het lineair verband. De sterkte van de correlatie is onafhankelijk
van de meeteenheden. Vanaf een correlatie van .3 spreken we meestal van een significant verband tussen x en
1 xx y y
n 1 s x
s
y
y.)
Regressielijn: om door middel van een waarde van X de waarde van Y te kunnen voorspellen. De formule luidt:
1. Categorische variabelen: hebben als waarden geen getallen, maar alleen kenmerken of categorieën
a. Nominaal: zonder rangorde
b. Ordinaal: met rangorde
2. Kwantitatieve variabelen: variabelen die als waarde getallen aannemen
a. Discreet: slechts bepaalde waarden kunnen voorkomen, hele getallen
b. Continu: oneindig veel mogelijkheden in waarde
Proportie: aantal observaties in categorie / n (ligt altijd tussen 0 en 1)
Skewed to the right: rechter tail langer dan de linker tail modus, mediaan, gemiddelde
Skewed to the left: linker tail langer dan de rechter tail gemiddelde, mediaan, modus
Gemiddelde (mean):
x
x
n
Standaarddeviatie: geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde.
( x x ) 2
s
n 1
Variantie: s², standaarddeviatie is echter makkelijk in gebruik
Empirical rule: als de verdeling klokvormig is dan:
xs
1. Ligt 68% van de observaties 1 standaarddeviatie van het gemiddelde af, dus
x 2s
2. Ligt 95% van de observaties 2 standaarddeviaties van het gemiddelde af, dus
x 3s
3. Ligt 99% van de observaties 3 standaarddeviaties van het gemiddelde af, dus
z-scores: hoeveel standaarddeviaties ligt een observatie van het gemiddelde af? De z-
score kan dus zien hoe uitzonderlijk een observatie is. De z-score gebruik je om te
ontdekken hoe groot de kans is dat we die observatie vinden. De manier om te zien
hoeveel procent onder een bepaalde z-score ligt: Tabel A
Observatie Gemiddelde
z
Standaardd eviatie
Percentielen: geeft aan hoeveel procent van de observaties onder een bepaald punt ligt. Het p-de percentiel is
een waarde waarbij p procent van de observaties onder die waarde vallen. Het 25e percentiel is Q1, het 50e
percentiel is Q2/de mediaan en het 75e percentiel is Q3. IQR is de middelste 50% van de data: Q3-Q1. Een
observatie is een outlier als het meer dan 1.5 keer de IQR onder het eerste kwartiel of boven het derde kwartiel
ligt.
Verband tussen variabelen
1. Response variables (dependent) Y
2. Explanatory variables (independent) X
Associatie: waarde van ene variabele hangt samen met waarde andere variabele. Als je de associatie tussen
kwantitatieve variabelen wilt weten, maak je vaak een scatterplot. Positieve associatie: als X omhoog gaat, dan
gaat Y ook omhoog. Negatieve associatie: als X omhoog gaat, gaat Y omlaag.
Correlatie: beschrijft de sterkte van een lineair verband. Wordt uitgedrukt in r die altijd tussen -1 en +1 ligt. Hoe
dichter bij de correlatie van -1 of +1, hoe sterker het lineair verband. De sterkte van de correlatie is onafhankelijk
van de meeteenheden. Vanaf een correlatie van .3 spreken we meestal van een significant verband tussen x en
1 xx y y
n 1 s x
s
y
y.)
Regressielijn: om door middel van een waarde van X de waarde van Y te kunnen voorspellen. De formule luidt: