College 1
Univariaat: 1 variabele
bivariaat: 2 variabelen
multivariaat: 2 of meer variabelen
Categorische variabelen: geen getallen als waarden maar kenmerken of categorische. Geslacht,
religie.
-Nominaal: categorisch zonder ordening
-Ordinaal: categorisch met ordening. Likert-scale
kwantitatieve variabelen: variabelen die getallen als waarden hebben. Inkomen, leeftijd, gewicht.
-discreet: variabele waarbij slechts bepaalde waarden kunnen voorkomen, bijvoorbeeld
alleen hele getallen: 0,1,2. Bijvoorbeeld aantal kinderen. Geen getal achter de komma.
-continu: variabele waarbij oneindig veel mogelijkheden zijn in waarde, zoals tijd, afstand,
gewicht. Wel getal achter de komma.
Voor kwantitatieve variabelen beschrijf je het gemiddelde en de spreiding. Bij categorische
variabelen beschrijf je hoeveel percentage een observatie is van het totaal.
Proportie altijd tussen 0 en 1. Aantal observaties in categorie (delen door) totaal aantal observaties.
percentage proportie x 100.
Categorische data: kwantitatieve data:
-frequentie tabel -dot plot
-taartdiagram -histrogram(voor grote datasets)
-staafdiagram -stem-and-leaf plot
Bimodale verdeling komt vaak voor bij onderwerpen waar heel verschillend over gedacht wordt. Of
fel voor of fel tegen.
Een outlier: een observatie die afwijkt van de anderen.
, 6 februari 2014 [BIS HOOFDSTUK 3]
N: het aantal observaties
x
x
n formule van gemiddelde.
x = symbool van gemiddelde (x-bar)
= symbool sommatie: optellen van een groep getallen
x = observatie
n = aantal observaties
mediaan: middelste getal(wanneer van laag naar hoog geordend)
modus: waarde die het vaakst voorkomt
Modus
Relatieve frequentie
Mediaan
Gemiddelde
15.000 28.000 33.000
0
Inkomen per jaar in euro’s
per huishouden
spreiding: afwijking van het gemiddelde. Meer spreiding is minder zekerheid.
Deviatie: hoeveel wijkt een observatie af van het gemiddelde. x x
( x x ) 2
Formule standaarddeviatie: s
n 1
elke deviatie wordt gekwadrateerd. Deze worden allemaal bij elkaar opgeteld, vervolgens door het
aantal observaties -1 gedeeld en daar de wortel van genomen.
Als de verdeling klokvormig is(empirical rule):
-dan ligt 68% van de observaties 1 standaarddeviaties van het gemiddelde af. x s
-dan ligt 95% van de observaties 2 standaarddeviaties van het gemiddelde af. x 2s
-dan ligt 99% van de observaties 3 standaarddeviaties van het gemiddelde af. x 3s
Standaarddeviatie: s
variantie: s2 gemiddelde van gekwadrateerde deviaties.
hoe groter de standaarddeviatie, hoe groter de spreiding van de data.
Z-score: Observatie Gemiddelde
z
Standaarddeviatie
Hoeveel standaarddeviaties ligt een observatie van het gemiddelde.