Aantekeningen Beschrijvend en Inferentiële Statistiek (BIS) – E. Daanje
Beschrijvende en Inferentiële Statistiek (BIS)
Docent: Jasper Muis
e-mail:
Datum: dinsdag 3 februari 2015
College 1: Hoofdstuk 2, beschrijvende univariate statistiek
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en presenteren.
Deze gegevens noemen we data. Het doel: door middel van data kennis vergaren over de wereld om ons
heen.
In deze periode gaan we kijken naar:
Beschrijvende statistiek: samenvatting van de verkregen data
Inferentiële statistiek: voorspellingen maken op basis van verkregen data.
Werkwijze en organisatie
- 13 hoorcolleges
- 3 SPSS practica
- 3 toetsenbijeenkomsten => SPSS-toets & Statlab-toets
Tentamendatum: vrijdag 27 maart (TenT, blok 2,3,5,6) A t/m K = 8:45-11:30 en L t/m Z = 12:00-14:45.
Eind cijfer: Tentamen 70%, Statlab-toetsen 15%, SPSS-toetsen 15%.
Hoofdstuk 2 beschrijvende univariate statistiek
Samenvatting van je gegevens van één variable (=univariaat) met een getal of met een figuur/grafiek.
Variabele Definitie Soort tabellen/grafieken
Categorische Zoals geslacht, nationaliteit, religie. Frequentietabel
Nominaal Categorieën zonder rangorde (zoals geslacht, Taartdiagram
nationaliteit, religie)
Staafdiagram
Ordinaal Categorieën met rangorde (zoals opleidingsniveau)
Kwantitatief (scale) Zoals leeftijd, gewicht, inkomen. Dot-plot
Discreet Gehele getallen als aantal kinderen, aantal Stem-and-leaf
huisdieren etc.
histogram
Continue Oneindig veel mogelijkheden (inkomen, aantal
kilometers, etc.)
1
,Aantekeningen Beschrijvend en Inferentiële Statistiek (BIS) – E. Daanje
Frequentietabel
Verdeling (distribution)
Symmetrische verdelingen Asymmetrische verdeling
Unimodale verdeling Biomodale verdeling Skewed to the right Skewed to the left
e.g. inkomstenverdeling e.g. levensverwachting
Outlier een observatie die ver buiten de andere observaties
Centrum maten
Gemiddeld Modus Mediaan
Mean Mode Median
x-bar = gemiddelde De waarde die het vaakste Het middelpunt van de
gekke E = optellen (som) voorkomt observaties als je ze van laag
x = observaties naar hoog ordent.
n = totaal aantal observaties
gemiddelde is het meest
gevoelig voor de outlier.
Gewogen gemiddelde =
uitrekenen als b.v.
tentamen 70 % meetelt,
spss 15 % meetelt en
Statlab 15 % meetelt.
2
, Aantekeningen Beschrijvend en Inferentiële Statistiek (BIS) – E. Daanje
Spreiding (spread)
De spreiding is de afwijking van het gemiddelde.
- Bij een groter spreiding zijn er grote afwijkingen in de data = minder zekerheid
- Bij een kleinere spreiding zijn er kleinere afwijkingen
Een maat voor de spreiding is Standaard deviatie.
= Geeft de gemiddelde afwijking van het gemiddelde. Het beschrijft de spreiding van de data en maakt
het makkelijker om de data te vergelijken.
1. Deviatie = -> laat zien hoeveel elke observatie van het gemiddelde afwijkt
2. Standaarddeviatie = -> laat zien wat de gemiddelde afstand van het
gemiddelde is. Elke deviatie wordt gekwadrateerd. Deze worden allemaal bij elkaar opgeteld en
vervolgens door het aantal observaties min 1 gedeeld. Daar wordt dan de wortel van genomen.
3. Variantie= s2 = = gemiddelde van gekwadrateerde deviaties.
Empirical Rule
geld alleen als de verdeling
klokvormig is
68 % van de observaties liggen 1
standaard deviatie van het
gemiddelde af.
95% van de observaties liggen 2
standaarddeviaties van het
gemiddelde af
99% van de observaties liggen 3
standaarddeviaties van het
gemiddelde af.
Z-scores
Vaak willen we weten hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde ligt. Dit
wordt uitgedrukt in de z-score.
3
Beschrijvende en Inferentiële Statistiek (BIS)
Docent: Jasper Muis
e-mail:
Datum: dinsdag 3 februari 2015
College 1: Hoofdstuk 2, beschrijvende univariate statistiek
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en presenteren.
Deze gegevens noemen we data. Het doel: door middel van data kennis vergaren over de wereld om ons
heen.
In deze periode gaan we kijken naar:
Beschrijvende statistiek: samenvatting van de verkregen data
Inferentiële statistiek: voorspellingen maken op basis van verkregen data.
Werkwijze en organisatie
- 13 hoorcolleges
- 3 SPSS practica
- 3 toetsenbijeenkomsten => SPSS-toets & Statlab-toets
Tentamendatum: vrijdag 27 maart (TenT, blok 2,3,5,6) A t/m K = 8:45-11:30 en L t/m Z = 12:00-14:45.
Eind cijfer: Tentamen 70%, Statlab-toetsen 15%, SPSS-toetsen 15%.
Hoofdstuk 2 beschrijvende univariate statistiek
Samenvatting van je gegevens van één variable (=univariaat) met een getal of met een figuur/grafiek.
Variabele Definitie Soort tabellen/grafieken
Categorische Zoals geslacht, nationaliteit, religie. Frequentietabel
Nominaal Categorieën zonder rangorde (zoals geslacht, Taartdiagram
nationaliteit, religie)
Staafdiagram
Ordinaal Categorieën met rangorde (zoals opleidingsniveau)
Kwantitatief (scale) Zoals leeftijd, gewicht, inkomen. Dot-plot
Discreet Gehele getallen als aantal kinderen, aantal Stem-and-leaf
huisdieren etc.
histogram
Continue Oneindig veel mogelijkheden (inkomen, aantal
kilometers, etc.)
1
,Aantekeningen Beschrijvend en Inferentiële Statistiek (BIS) – E. Daanje
Frequentietabel
Verdeling (distribution)
Symmetrische verdelingen Asymmetrische verdeling
Unimodale verdeling Biomodale verdeling Skewed to the right Skewed to the left
e.g. inkomstenverdeling e.g. levensverwachting
Outlier een observatie die ver buiten de andere observaties
Centrum maten
Gemiddeld Modus Mediaan
Mean Mode Median
x-bar = gemiddelde De waarde die het vaakste Het middelpunt van de
gekke E = optellen (som) voorkomt observaties als je ze van laag
x = observaties naar hoog ordent.
n = totaal aantal observaties
gemiddelde is het meest
gevoelig voor de outlier.
Gewogen gemiddelde =
uitrekenen als b.v.
tentamen 70 % meetelt,
spss 15 % meetelt en
Statlab 15 % meetelt.
2
, Aantekeningen Beschrijvend en Inferentiële Statistiek (BIS) – E. Daanje
Spreiding (spread)
De spreiding is de afwijking van het gemiddelde.
- Bij een groter spreiding zijn er grote afwijkingen in de data = minder zekerheid
- Bij een kleinere spreiding zijn er kleinere afwijkingen
Een maat voor de spreiding is Standaard deviatie.
= Geeft de gemiddelde afwijking van het gemiddelde. Het beschrijft de spreiding van de data en maakt
het makkelijker om de data te vergelijken.
1. Deviatie = -> laat zien hoeveel elke observatie van het gemiddelde afwijkt
2. Standaarddeviatie = -> laat zien wat de gemiddelde afstand van het
gemiddelde is. Elke deviatie wordt gekwadrateerd. Deze worden allemaal bij elkaar opgeteld en
vervolgens door het aantal observaties min 1 gedeeld. Daar wordt dan de wortel van genomen.
3. Variantie= s2 = = gemiddelde van gekwadrateerde deviaties.
Empirical Rule
geld alleen als de verdeling
klokvormig is
68 % van de observaties liggen 1
standaard deviatie van het
gemiddelde af.
95% van de observaties liggen 2
standaarddeviaties van het
gemiddelde af
99% van de observaties liggen 3
standaarddeviaties van het
gemiddelde af.
Z-scores
Vaak willen we weten hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde ligt. Dit
wordt uitgedrukt in de z-score.
3