HOORCOLLEGE 1
PSLS HOOFDSTUK 1 EN 2
WAAROM STATISTIEK?
Statistiek is vaak kwantitatief onderzoek, maar kan ook in mixed-methods. Getallen in dataverzameling/ resultaten zijn allemaal
op basis van statistiek.
Statistiek is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van
gegevens.
Statistiek: hoe verzamel je data, hoe bewerk je ze en hoe interpreteer je ze en hoe vertaal je dit naar de oorspronkelijke
onderzoeksvraag. > De empirische cyclus.
DATAVERZAMELING
Dataverzameling:
n experimentele eenheden = wie ga je waarnemen
o In onze setting vaak patiënten
o n staat voor aantal; hoeveel eenheden neem ik in het experiment
één of meer variabelen
o Variabelen = eigenschappen die van patiënt tot patiënt kunnen variëren binnen een onderzoek
o Voorbeeld:
40 volwassenen
variabelen: darmkanker (ja/nee), lengte (cm), gewicht (kg), beweging (minute per dag), roken (nooit,
vroeger, nu), alcohol (aantal glazen per dag), rood vlees categorieën :(per week: 0 – 100 gram, 100 –
300 gram, 300 – 500 gram, meer dan 500 gram)
1
,VARIABELEN
Variabelen (PSLS indeling)
Categorisch
o Een variabele is niet een getal, maar een catagorie. Denk aan ja/nee, wel/niet
• Digotomen variabelen: 0 of 1. Ja of nee, aan of uit.
• darmkanker, roken, rood vlees (onderverdeeld in schalen)
Kwantitatief
o Vloeiende lijnen, geen ja/nee
• lengte, gewicht, beweging, alcohol
TYPE VARIABELEN
Andere indelingen variabelen
Discreet vs continu
o Discreet: Aantallen of tellingen. Variabelen heeft een beperkt aantal waardes. Er zit geen overlap in.
Darmkanker, roken (wel of niet), rood vlees, alcohol (wel of niet drinken), beweging
(wel of niet sporten/ de glazen opgedeeld in klasse)
o Continu: Alle waardes tussen twee eenheden.
Lengte, gewicht, alcohol (aantal glazen), beweging (aantal minuten beweging)
Nominaal, ordinaal, interval, ratio
o Nominaal: Een categorische of discrete variabele waar geen natuurlijke ordening in zit. De ‘ja’ is
bijvoorbeeld niet meer waard dan de ‘nee’
darmkanker, roken (?)
Denk ook aan bloedgroepen
o Ordinaal: Een categorische of discrete variabele waar wel een natuurlijke ordening in zit
Roken(nooit/ vroeger/ nu), rood vlees (opbouwende schaal
o Ratio: Een logisch nul-punt. Gaat altijd over continue variabelen. De intervallen hebben een betekenis,
en dit gaat over een constante betekenis.
Alcohol ( 5 of 10 glazen, twee keer zo veel), beweging, lengte, gewicht
2
,BESCHRIJVENDE STATISTIEK
FIGUREN
STAAFDIAGRAMMEN
Staafdiagrammen zijn op basis van categorische
variabelen
Staafdiagrammen
o Één variabele
o Y-as is n
o X-as is een waarde (Ja/nee)
Staafdiagrammen met onderscheid naar tweede variabele.
Dit gebruik je om te kijken of er samenhang is tussen twee
groepen. Je kan hier geen causale uitspraken in doen, wel
kun je inschattingen maken.
o Twee variabele, roken en darmkanker
o Y-as blijft n
o X-as blijft roken, legenda (twee kleuren staven)
geeft tweede variabele aan.
Staafdiagrammen met onderscheid naar tweede variabele –
relatieve frequenties
o Hierbij wordt gebruik gemaakt van percentages.
o Het geheel aantal n wordt onderverdeeld in
percentages per variabele. Hierdoor kun je groepen
makkelijker vergelijken.
o Y-as wordt dus nu percentage. X-as blijft hetzelfde.
HISTOGRAMMEN
Kwantitatieve variabelen
Histogrammen = een staafdiagram aan elkaar vast, dit geeft aan
dat je het over continue variabelen hebt.
o Verdeel de range van mogelijke waarden in klassen
Neem hierbij het minimum en het maximum.
Kijk hoeveel klassen je nodig hebt.
o Bepaal in iedere klasse de frequentie (absoluut of relatief)
Turf bij iedere klasse hoeveel aantallen n er zijn.
Belangrijk; je spreekt bij histogrammen niet over categorieën maar over klassen.
3
, Wanneer je een histogram aanmaakt op SPSS geeft hij standaard altijd een Mean, een standaard deviatie en een n .
o Mean is het gemiddelde, dus in deze; waar is het gemiddelde gewicht
o Standaard deviatie; hoever liggen alle klassen uit elkaar. Ook wel standaard afwijking.
Histogrammen kunnen heel erg van elkaar verschillen, ook wanneer je
dezelfde data hebt, maar bijvoorbeeld andere klassen kiest:
Aan de hand van histogrammen kan je uitspraken doen over een verdeling.
Een symmetrische verdeling heeft het hoogtepunt in het midden liggen, links en rechts van het hoogtepunt zijn
bijna gelijk.
Een rechtsscheve verdeling heeft het hoogtepunt op LINKS liggen
Er zijn veel aantallen bij de kleine waardes, en hij heeft een lange staart in enkele aantallen bij grotere waardes.
Een linksscheve verdeling heeft het hoogtepunt op RECHTS liggen
Er is een lange aanloop met kleine waardes, met bijna geen aantallen, en plots gaat hij in de grote waardes pieken.
Waardes die heel erg afwijken van de rest noemt men uitbijters, deze veranderen vaak een gemiddelde, terwijl het meeste
aantal n vaak lager of hoger ligt.
Uitbijters zijn niet goed of fout, maar geeft wel reden tot extra controleren van je data.
Daarom wordt er in berekeningen gebruik gemaakt van een gemiddelde en een mediaan. Gemiddelde discrimineert niet in
waardes, een mediaan wel.
HISTOGRAMMEN MET TWEE
VARIABLENEN
Histogrammen kunnen ook twee variabelen bevatten. Dit kan op verschillende manieren weergegeven worden. Altijd belangrijk
om goed de assen te controleren om te zien wat er tegenover elkaar uitgezet wordt.
Bovengenoemd is een absolute frequentie, maar het kan ook bij een relatieve
frequentie. Dan ziet een tabel er als volgt uit:
4