Statistiek
Week 1
Beschrijvende statistiek:
- Beschrijven van de data
- Vaak via samenvattende statistieken
- Vb. een Spaanse vrouw is gemiddeld 1,63 m lang
Inferentiële statistiek:
- We willen een inferentie maken van iets naar iets anders
- Hier willen we een inferentie (gevolgtrekking) maken van de steekproef naar de
populatie
- Als je roodharige katten wilt onderzoeken maak je een steekproef uit de gehele
populatie (dit doe je met speciale steekproef methodes). Je gaat het gedrag van je
steekproef bepalen, je wilt een inferentie maken van de steekproef naar de
populatie. Hiervoor heb je inferentiële statistiek nodig.
Dimensies van het data-idee
- Constructies vs. operationaliseringen
Je kunt constructen niet gelijk meten, we zijn altijd opzoek hoe we een construct
kunnen operationaliseren. Hoe kunnen we een construct vertalen naar een
variabele.
- Discrete vs. continue variabelen
Sommige variabelen kunnen slechts uit een beperkt aantal categorieën bestaan:
o Geslacht, oogkleur, moedertaal
o Maar ook: aantal huisdieren, aantal broers en zussen, hoe vaak op vakantie
geweest
Er zijn geen opties om tussen bepaalde variabele te zitten, 1,76 huisdieren
kan niet. Discrete variabelen
Andere variabelen kunnen alle waarden tussen twee punten aannemen:
o Inkomen, lengte, gewicht, snelheid
o 1,7457346349834 meter lang zijn
o Een waarde van een continue variabele is dus eigenlijk een interval
- Meetniveaus
Nominale schaal
o Benoemde categorieën (hond, kat, hamster)
o Geen kwantitatief onderscheid tussen categorieën
o Geen nul!
, Ordinale schaal
o Gerangschikte categorieën (1e, 2e, 3e)
o Er is geen gelijke afstand tussen de rangen
o Geen nul!
Interval schaal
o Bestaat uit even grote intervallen tussen waarden
o Elke eenheid heeft dezelfde grootte
o Temperatuur: (van 21 tot 26 zelfde als 1 naar 6)
o Er is geen echt nulpunt! (Willekeurig gekozen waar 0 is, er is nooit geen
temperatuur)
Ratio schaal
o Bestaat uit even grote intervallen tussen waarden
o Elke eenheid heeft dezelfde grootte
o Maar nu hebben we wel een absolute nul
o Afstand: 0 meter is niks
Frequentie van waarde = wanneer je gaat tellen door hoeveel mensen er 1 is gekozen,
hoeveel 2 en hoeveel 3. Dan maak je een frequentieverdelingstabel.
Bij een continue variabele is het lastig om zon tabel te maken omdat elke waarde niet vaak
voor komt dus het een lange tabel wordt. Dan ga je de data groeperen.
Gegroepeerde frequentieverdelingen:
- We bundelen enkele waarde bereiken samen
- We kunnen hier waarschijnlijk wat meetprecisie verliezen
- Voorbeeld:
o Laag (0-25000)
o Midden (25001-50000)
o Boven-midden (50001-75000)
o Hoog (75001+)
, Als je twee data verzamelingen hebt ga je de proporties berekenen omdat het anders niet
overzichtelijk is.
N = hoeveel scores er zijn in een set
n = hoeveel scores er zijn in een sample
Σ = opsomming van de scores
Proportie: P = f/N (frequentie delen door totaal) * 100 heb je percentage
(Histogram)
Staart rechts = positief skew
Staart links = negatieve skew
Datapunten lokaliseren
- We willen misschien weten waar een waarde ligt ten opzichte van de hele data
- Zijn 3 huisdieren veel of weinig?
- Waar ligt een inkomen van X = 4000 euro
We kunnen deze punten lokaliseren op basis van de frequentieverdeling.
We gebruiken percentielen hiervoor:
1. We sorteren onze frequentietabel
2. We berekenen een cumulatief percentage c% = cf/N x 100
3. We lokaliseren ons datapunt van belang (het hebben van 2 huisdieren)
Interpreteren hiervan:
- We weten dat 3 huisdieren overeenkomt met een cumulatief percentage van 95,17%
- D.w.z. 95,17% van onze data is geaccumuleerd zodra we 3 huisdieren (inclusief)
bereiken
- 95,17% van de antwoorden valt onder 0,1,2, of 3 huisdieren
3 huisdieren heeft een percentielrang van 95,17%
3 huisdieren is het 95e percentiel
Week 1
Beschrijvende statistiek:
- Beschrijven van de data
- Vaak via samenvattende statistieken
- Vb. een Spaanse vrouw is gemiddeld 1,63 m lang
Inferentiële statistiek:
- We willen een inferentie maken van iets naar iets anders
- Hier willen we een inferentie (gevolgtrekking) maken van de steekproef naar de
populatie
- Als je roodharige katten wilt onderzoeken maak je een steekproef uit de gehele
populatie (dit doe je met speciale steekproef methodes). Je gaat het gedrag van je
steekproef bepalen, je wilt een inferentie maken van de steekproef naar de
populatie. Hiervoor heb je inferentiële statistiek nodig.
Dimensies van het data-idee
- Constructies vs. operationaliseringen
Je kunt constructen niet gelijk meten, we zijn altijd opzoek hoe we een construct
kunnen operationaliseren. Hoe kunnen we een construct vertalen naar een
variabele.
- Discrete vs. continue variabelen
Sommige variabelen kunnen slechts uit een beperkt aantal categorieën bestaan:
o Geslacht, oogkleur, moedertaal
o Maar ook: aantal huisdieren, aantal broers en zussen, hoe vaak op vakantie
geweest
Er zijn geen opties om tussen bepaalde variabele te zitten, 1,76 huisdieren
kan niet. Discrete variabelen
Andere variabelen kunnen alle waarden tussen twee punten aannemen:
o Inkomen, lengte, gewicht, snelheid
o 1,7457346349834 meter lang zijn
o Een waarde van een continue variabele is dus eigenlijk een interval
- Meetniveaus
Nominale schaal
o Benoemde categorieën (hond, kat, hamster)
o Geen kwantitatief onderscheid tussen categorieën
o Geen nul!
, Ordinale schaal
o Gerangschikte categorieën (1e, 2e, 3e)
o Er is geen gelijke afstand tussen de rangen
o Geen nul!
Interval schaal
o Bestaat uit even grote intervallen tussen waarden
o Elke eenheid heeft dezelfde grootte
o Temperatuur: (van 21 tot 26 zelfde als 1 naar 6)
o Er is geen echt nulpunt! (Willekeurig gekozen waar 0 is, er is nooit geen
temperatuur)
Ratio schaal
o Bestaat uit even grote intervallen tussen waarden
o Elke eenheid heeft dezelfde grootte
o Maar nu hebben we wel een absolute nul
o Afstand: 0 meter is niks
Frequentie van waarde = wanneer je gaat tellen door hoeveel mensen er 1 is gekozen,
hoeveel 2 en hoeveel 3. Dan maak je een frequentieverdelingstabel.
Bij een continue variabele is het lastig om zon tabel te maken omdat elke waarde niet vaak
voor komt dus het een lange tabel wordt. Dan ga je de data groeperen.
Gegroepeerde frequentieverdelingen:
- We bundelen enkele waarde bereiken samen
- We kunnen hier waarschijnlijk wat meetprecisie verliezen
- Voorbeeld:
o Laag (0-25000)
o Midden (25001-50000)
o Boven-midden (50001-75000)
o Hoog (75001+)
, Als je twee data verzamelingen hebt ga je de proporties berekenen omdat het anders niet
overzichtelijk is.
N = hoeveel scores er zijn in een set
n = hoeveel scores er zijn in een sample
Σ = opsomming van de scores
Proportie: P = f/N (frequentie delen door totaal) * 100 heb je percentage
(Histogram)
Staart rechts = positief skew
Staart links = negatieve skew
Datapunten lokaliseren
- We willen misschien weten waar een waarde ligt ten opzichte van de hele data
- Zijn 3 huisdieren veel of weinig?
- Waar ligt een inkomen van X = 4000 euro
We kunnen deze punten lokaliseren op basis van de frequentieverdeling.
We gebruiken percentielen hiervoor:
1. We sorteren onze frequentietabel
2. We berekenen een cumulatief percentage c% = cf/N x 100
3. We lokaliseren ons datapunt van belang (het hebben van 2 huisdieren)
Interpreteren hiervan:
- We weten dat 3 huisdieren overeenkomt met een cumulatief percentage van 95,17%
- D.w.z. 95,17% van onze data is geaccumuleerd zodra we 3 huisdieren (inclusief)
bereiken
- 95,17% van de antwoorden valt onder 0,1,2, of 3 huisdieren
3 huisdieren heeft een percentielrang van 95,17%
3 huisdieren is het 95e percentiel