Statistiek
Inleiding Statistiek: beschrijvende statistiek en de theorie van
schatten en toetsen
1
, Deel I: verzamelen en verkennen van data
Hoofdstuk 1 & 2 PSLS: grafieken en kwantitatieve (numerieke) verdelingen
Beschrijvende statistiek
Paramater = eigenschap van een populatie (gemiddelde, mediaan, SD)
Individu = meetobject (elke rij in een spreadsheet)
Variabele = eigenschap, kenmerk of getal van dat individu dat kan variëren (verschillende waarden).
- Discreet = hele getallen (aantal kinderen)
- Continu = oneindig veel waarden binnen een interval (lengte, gewicht, tijd)
Populatie = volledige groep (kost veel tijd en geld).
Steekproef (sample) = deelselectie, ad random gekozen, van een populatie om conclusies te trekken
over de hele populatie. Besparing.
Gestratificeerde steekproef = populatie wordt eerst verdeeld in strata (subgroepen) die intern
homogeen zijn. Uit elke subgroep wordt een steekproef getrokken en vormen samen 1 groep.
Kwalitatieve & kwantitatieve variabelen
A. Kwalitatief = Categorische variabelen (discreet, dichotoom,nominaal)
• Meetschalen:
o Nominaal = categorieën zonder volgorde (nationaliteit, kleur, als leeftijd in een categorie
wordt weergegeven 0-5 jaar)
o Nominaal-dichotoom = slechts 2 categorieën/waarden (geslacht, ja/nee)
o Ordinaal = categorieen met ordening/volgorde (opleidingsniveau, beoordelingen slecht –
matig – goed)
• Uitkomstmaat:
o Frequentie = absoluut
Wanneer je even grote groepen wilt vergelijken
o Relatieve frequentie = proportie (0,8 bv) of percentage (80%)
Wanneer je heterogene groepen wilt vergelijken
Samen altijd 100%
• Visuele weergave:
o Cirkeldiagram (pie chart): aandeel t.o.v. geheel
o Staafdiagram (bar graph): losse staven, categorieen vergelijken
o Gestapelde staafdiagram (stacked bar graph): 2 categorische variabelen in 1 staaf
o Kruistabel (two way table): samenhang tussen 2 categorische variabelen
2
,B. Kwantitatief = Numeriek (continu, ratio, interval)
• Meetschalen
o Interval: getallen met gelijke afstand ertussen, zonder absoluut nulpunt (temperatuur,
jaartallen)
o Ratio: getallen met gelijke afstand ertussen, met absoluut nulpunt (leeftijd, lengte, gewicht)
• Uitkomstmaat:
o Gemiddelde (mean): som (sigma) alle waarden (n)/aantal waarden
Gevoelig voor uitschieters
o %5 trimmed mean = de laagste en hoogste 5% worden verwijderd voordat het
gemiddelde wordt berekend. 90% blijft over.
o Mediaan = middelste waarde in een gesorteerde gegevensset van laag
naar hoog → 50e percentiel
- Niet gevoelig voor uitschieters
- Oneven aantal observaties (5): middelste getal (1 -3 – 6 – 8 -8 )
Formule locatie = (n + 1) / 2 = 5 + 1 = 6/2 = 3e getal (6)
- Even aantal observaties (4): gemiddelde van de 2 middelste getallen (1 -3 -6 -8)
Formule locatie = 4 + = 2,5 = ligt tussen 2e en 3e getal (tussen 3 en 6)
- Andere formule locatie: percentiel (0,5) x n
o IQR = afstand Q3 (75%) – Q1 (25%) (middelste 50%), negeert uitschieters
o Modus = getal dat het vaakste voorkomt
o Variantie = Gemiddelde afstand tot het gemiddelde. De SOM is altijd 0. Het bevat positieve
en negatieve getallen, om dit op te heffen, doe je het vervolgens in het kwadraat.
o Variatiebreedte = grootste waarde – kleinste waarde (oplopend gesorteerd)
o Standaardeviatie: bereken je door √ variantie. Afwijking van elke observatie t.o.v. het
gemiddelde (spreiding). Hoe kleiner SD, hoe kleiner de spreiding. Gevoelig voor uitschieters.
o Standaardscore = z-score = aantal SD dat waarneming (observatie) afwijkt van het
gemiddelde
- Z = 0, is precies het gemiddelde
- Bij een 95% BI is de z-score: 1,96 ( 2 SD)
Populatie variatie Steekproef variatie steekproef standaardeviatie
Voorbeeld steekproef
Observaties Deviatie (obs – gem) Variatie Z-waarde
SOM deviatie² / n-1
50 50 – 66 = -16 (50-66)² = 121 -16/11,24 = -1,42
65 65 – 66 = -1 (65-66)² = 1 -1 /11,24 = - 0.089
67 67 – 66 = 1 (67-66)² = 1 1/11,24 = 0.089
82 82 – 66 = 16 (82-66)²= 256 16/11.24 = 1,42
SOM = 50 + 65 + 67 + 82 = 264 SOM = altijd 0 SOM = (n-1) =
Gemiddelde= 264/4 = 66 126,33 Positieve z-score ligt
boven het gemiddelde,
een negatieve eronder,
loopt van -3 tot +3
SD (s) = sigma
√ 126,33 = 11,24
Een SD is altijd positief
3
, • Visuele weergaven
Histogram: aangrenzende staven, unimodaal (single peak). Maak klassenbreedte even groot. X-as:
variabele, y-as: (relatieve) frequentie’
o Bij symmetrische verdeling:
- Locatiemaat = gemiddelde (= mediaan)
- Spreidingsmaat = SD
o Bij scheve verdeling
- Locatiemaat = mediaan
- Spreiding = IQR (niet gevoelig voor uitschieters)
- Linksscheef (staart links): gemiddelde < mediaan < modus (er zijn meer hogere waarden)
- Rechtsscheef (staart rechts): gemiddelde > mediaan > modus (er zijn meer lagere waarden)
o Effect uitbijter:
- Uitbijter rechts: gemiddelde neemt toe (meer hoge waardes), SD neemt ook toe (meer
spreiding), mediaan blijft gelijk (niet gevoelig voor uitschieters)
- Uitbijter links: gemiddelde neemt af, SD neemt toe (meer spreiding). Dus omgekeerd: als je
uitbijter links weghaalt, neemt gemiddelde toe.
o Als je alle waarden met hetzelfde getal verhoogt of verlaagt, verandert het gemiddelde maar
de SD en IQR niet
Boxplot: vergelijkt meerdere groepen, geeft mediaan en IQR weer.
Vijfgetallensamenvatting:
1. Minimum
1. 25e percentiel (Q1): 25% ligt onder het mediaan (en 75% waarden ligt boven dit getal)
2. Mediaan (50e percentiel)
3. 75e percentiel (Q3): 25% ligt boven het mediaan
4. Maximum
Range = min – max afstand (tussen de whiskers)
Interkwartielafstand IQR (spreiding): Q3 (75%) – Q1 (25%) (middelste 50%), negeert uitschieters
Uitschieters berekenen (aangegeven met een rondje): Q1 – (1,5 x IQR) en Q3 + (1,5 x IQR)
Extreme uitschieters (aangegeven met een sterretje): Q1 – (3 x IQR) en Q3 + (3 x IQR)
4