Statistiek; leren welke factoren de meeste invloed hebben op bepaalde dingen.
Observatie data (informatie over karakteristieken van een onderwerp)
Database; gearchiveerde collectie van data.
Statistiek bestaat uit methoden voor het verkrijgen en analyseren van data.
Methoden voor;
- design; plannen hoe je data voor het onderzoek gaat verzamelen. Bijvoorbeeld
hoe ga je je proefpersonen selecteren.
- Beschrijven; samenvatten van de data om de informatie te beschrijven. Je kan
het samenvatten met een grafiek of tabel of door gemiddelden te weergeven. Dit
noemen we beschrijvende statistiek.
- Inductie; het doen van voorspellingen gebaseerd op de data. Het voorspellen
door het gebruiken van data noemen we inductieve statistiek.
Dus twee typen statistische analyses, dus ook twee manieren om je data te analyseren.
Dat wat een onderzoek bestudeert zijn de subjecten. Meestal zijn dat personen.
De populatie is de totale set van subjecten van belang in een studie. De steekproef
(sample) is een deel van de populatie waarover data wordt verzameld.
Hoofddoel van de beschrijvende statistiek is om de data te versimpelen en het
begrijpelijk te maken zonder te veel informatie te verliezen. Beschrijvende statistiek is
zowel handig voor data dat beschikbaar is over de gehele populatie als voor data dat
alleen beschikbaar is voor de steekproef.
Inductieve statistiek geldt alleen als data alleen beschikbaar is voor de steekproef maar
we voorspellingen willen doen over de gehele populatie.
inductieve statistiek zorgt voor voorspellingen over een populatie, gebaseerd op een
steekproef van de populatie.
Een parameter is een numerieke samenvatting van de populatie. Een
steekproefgrootheid is een numerieke samenvatting van de steekproefdata. Meestal is
men meer geïnteresseerd in de parameters.
De conceptuele populatie is een populatie die niet echt bestaat, maar die hypothetisch
is. De actuele populatie bestaat wel echt.
Meetniveaus;
- nominaal (discreet, categorisch) tellen + frequentie
- ordinaal (discreet, categorisch) tellen + frequentie
- interval (continu/discreet, kwantitatief) optellen & aftrekken
- ratio (continu, kwalitatief) +/-/x/:
kwantitatief; een meetschaal met numerieke waarden (interval); vaste afstand tussen
getallen. zowel discreet als continu
,Categorisch/kwalitatief; een meetschaal met een set van categorieën (nominaal; alleen
benoemen, getal is niet beter of slechter/ordinaal; een ordening van waarden, hoe hoger
hoe beter maar geen vaste afstand) discreet
Discreet; afzonderlijke meetwaarden die niet kunnen worden onderverdeeld (0,1,2,3)
Continu; altijd fijnere onderverdeling mogelijk (komma getallen).
De steekproefgrootheid zit altijd naast de parameter. De fout die je maakt als de
steekproefgrootheid gebruikt om de populatie parameter te voorspellen. Dit heet de
steekproeffout. Hoe groter de steekproef, hoe kleiner de steekproeffout. Je maakt hem
echter bijna altijd. (grotere steekproef betekent nauwkeuriger schatten),
Bij een andere steekproef krijg je een andere steekproefgrootheid, dit heet
steekproeffluctuatie. Het varieert.
Probability sampling; de waarschijnlijkheid dat een bepaalde steekproef wordt
geselecteerd is bekend. Heeft de voorkeur van inductieve statistiek.
Nonprobability sampling; niet mogelijk de waarschijnlijkheid van de mogelijke
steekproeven te bepalen. Bijvoorbeeld bij vrijwillige sampling (niet aselect). Een grotere
sample zal niet helpen.
Sampling bias; niet aselecte steekproeven. Het ontbreken van representatie van
sommige groepen in de populatie.
Respons bias; vindt plaats wanneer het subject een incorrecte respons geeft, of door
slecht geformuleerde/verwarrende vragen.
Nonrespons bias; er ontbreken gegevens.
Soorten steekproeven;
- enkelvoudige aselecte steekproef; elke combi heeft evenveel kans om de
steekproef te vormen
o leg steekproefkader aan
o trek aselect, via aselecte getalen
- systematische aselecte steekproef; niet alle combi’s mogelijk
o leg steekproefkader aan
o bepaal stapgrootte
o de eerste aselect, daarna de (eerste+k’de) etc.
- Cluster steekproef; niet alle elementen zelfde kans, niet alle combinaties gelijke
kans
o Leg steekproefkader aan met clusters
o Trek aselecte clusters
o Neem alle elementen uit het cluster
- Getrapte steekproef
o Trek aselect cluster
o Trek aselect elementen uit ieder cluster
- Gestratificeerde steekproef
o Verdeel populatie in strata
o Trek aselect uit ieder stratum
o Wanneer? Als kenmerk niet evenredig verdeeld is, om groepen te
vergelijken, verhogen nauwkeurigheid
,Validiteit; meten wat je beoogd te meten.
Variabele; een karakteristiek dat kan variëren in waarde tussen subjecten in een
steekproef of populatie.
HOOFDSTUK 3 BESCHRIJVENDE STATISTIEK
Relatieve frequentie voor een categorie is de proportie/percentage van de
observaties dat binnen de categorie vallen.
Frequentie distributie is een opsomming van de mogelijke waarden die een variabele
aan kan nemen, samen met het aantal observaties van iedere waarde. De relatieve
frequentieverdeling somt de mogelijke waarden op samen met de proporties of
percentages.
staafdiagram; x-as waarde die de variabele aanneemt, y-as
aantal/proportie/percentage personen bij wie de betreffende waarde waargenomen
wordt. Als de staven gescheiden zijn is de x-as categorisch, als de staven tegen elkaar
aan staan is de x-as kwantitatief histogram.
Steel-en-blad diagram; gebruiken voor kwantitatieve variabelen. Groepeert
observatiesmet dezelfde leidende eenheid (steel) en laat hun eind-eenheid zien (blad).
Alleen frequentie, geen proportie/percentage. lijkt veel op een histogram, maar
vertoond informatie die in een histogram verloren gaan.
Gemiddelde (mean); de som van de observaties gedeeld door het aantal observaties.
- Het gemiddelde wordt sterk beinvloed door uitbijters.
- Het gemiddelde wordt getrokkken naar de richting van de staart van een scheve
verdeling.
- Het gemiddelde is het evenwichtspunt van de observaties. de afstand van de
som van de observaties boven het gemiddelde is gelijk aan de som van de afstand
van de observaties onder het gemiddelde.
- Gemiddelde is alleen geschikt voor kwantitatieve variabelen (interval schaal)
Steekproefgrootte heeft het symbool n. De variabele heeft het symbool y. Elke
observatie wordt genoteerd als . Elke observatie wordt genoteerd als y1, y2, y2 etc. Het
steekproefgemiddelde wordt genoteerd als “y-streepje” .
y”streepje” = y1 + y2 + … +yn : n “y-streepje” = :n
Het gewogen gemiddelde wordt verkregen door elk gemiddelde te wegen naar het
aantal waarnemingen waarop elk gemiddelde gebaseerd is; “y-streepje” = n1y-streepje1
+ n2y-streepje2 : n1 + n2. (omvang steekproef1, y1 : gemiddelde steekproef 1 + omvang
steekproef2, y2 : gemiddelde steekproef 2)
De mediaan verdeeld de steekproef in twee delen met een gelijk aantal observaties als
de observaties geordend zijn van de laagste naar de hoogste observaties. De mediaan is
de middelste observatie. Als een verdeling erg scheef is, beschrijft de mediaan de
waarden beter dan het gemiddelde. Als n een gelijk aantal is, is de mediaan het
gemiddelde van de middelste twee observaties.
- de mediaan is geschikt voor kwantitatieve variabelen (interval schaal).
, - Omdat het geordende data gebruikt is het ook geschikt voor ordinale
schaalverdeling(maar dus niet voor een nominale schaalverdeling)
- In een symmetrische verdeling zijn de mediaan en het gemiddelde identiek.
- De mediaan is ongevoelig voor de afstanden tot de observaties vanaf het midden.
(niet beinvloed door uitbijters)
Als de verdeling zo goed als symmetrisch is of discreet is met een paar waarden, wordt
meestal het gemiddelde gebruikt omdat het gebruik maakt van de numerieke waarden
van alle observaties (in tegenstelling tot de mediaan).
De modus is de waarde die met meest frequent voorkomt. De modus wordt vaak
gebruikt bij discrete variabelen, zoals met categorische data.
- de modus kan gebruikt worden voor alle soorten data.
- De frequentie distributie van de modus heet bimodaal als twee verschillende
modi aanwezig zijn in een verdeling.
Het verschil tussen de grootste en de kleinste observatie is de range. Dit is de
makkelijkste manier om de variabiliteit te beschrijven.
Een andere manier om de variabiliteit te beschrijven is de standaard deviatie (s). Dit is
de deviatie van observatie yi en het steekproefgemiddelde (ystreepje).Er is sprake van
een positieve deviatie als de observatie boven het gemiddelde valt (negatief is
andersom). De som van yi – ystreepje is nul. Daarom wordt bij het meten van de
variabiliteit of een absolute waarde of de kwadraten van de deviaties gebruikt.
( )
= √(som van de gekwadrateerde deviaties):steekproefgrootte - 1
( )
Variantie;
Sum of squares; ( ) als de uitkomst precies 0 is, hebben alle
observaties dezelfde waarde. Hoe groter de spreiding, hoe groter s (standaarddeviatie).
Percentiel; het p-de percentiel is het punt waar p% van de waarnemingen onder valt en
100-p% boven valt. Het 25e percentiel (onderste percentiel) is de mediaan voor de
observaties die onder de mediaan valt. Het 75e percentiel (bovenste percentiel) is de
mediaan voor de observaties die boven de mediaan vallen.
Het verschil tussen het bovenste en het onderste percentiel heet de interkwartiel
range (IQR). Dit beschrijft de spreiding van de middelste helft van de observaties.
- niet gevoelig voor uitbijters (in tegenstelling tot SD of range)
- handig om de variabiliteit tussen verschillende groepen te vergelijken.
In de boxplot wordt weergegeven; het minimum, onderste kwartiel, bovenste kwartiel,
gemiddelde, maximum.
Het aantal standaardafwijkingen dat een observatie (y) afligt van het gemiddelde is de z-
score; observatie – gemiddelde : standaarddeviatie.
alternatief criterium is dat een uitbijter groter dan drie standaardafwijkingen moet
zijn.