Beschrijvende en inferentiele statistiek
College 1 + kennisclips
variabelen: kenmerken van iets of iemand & cases: iets of iemand
inferential statistics: obv steekproef wil je voorspellingen doen over populatie
categorische variabelen: geen waarden als getallen maar kenmerken/categorieën
geslacht/religie/nationaliteit (alleen modus handig om center te bepalen)
(kruistabel, marginale/conditionele proporties, relatief risico, odds ratio)
nominaal: studentnummer, woonplaats & ordinaal: rangordening
kwantitatieve variabelen: getallen als waarden inkomen/leeftijd/gewicht (mediaan en mean
handig om center te bepalen; mediaan als je outliers of scheve verdeling hebt)
(gemiddelde, standaarddeviatie, scatterplot, correlatie)
interval en ratio: rangordening met gelijke afstanden (temperatuur, leeftijd, lengte)
-> discreet: set van aparte nummers (aantal doelpunten)
-> continue: mogelijk dat de waarden een interval vormen (lengte van iemand)
centrummaten:
mediaan: middelste waarneming (bij even aantal waarnemingen -> (10+10)/2)
modus: meest frequente waarneming
mean (gemiddelde): wordt het sterkste beinvloed door ‘de staart’ (tail) van een verdeling
-> skewed to the left (negative) & skewed to the right (positive)
standaarddeviatie
geeft aan hoeveel de data gemiddeld afwijkt van gemiddelde -> uitrekenen:
1. x – x̄ = x – mean (deviatie)
2. deviaties kwadrateren: (x – mean)2
3. alles bij elkaar optellen som(x – mean)2
4. vervolgens delen door aantal observaties – 1 (n – 1)
5. worteltrekken
spreiding en standaarddeviatie
hoe groter standaarddeviatie (s) des te groter spreiding van de data
lagere s suggereert dat er sprake is van consistentie; betrouwbaarder
meer spreiding = minder zekerheid
z-scores
geeft aan hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde ligt
formule: observatie – gemiddelde/standaarddeviatie ( x - x̄/s)
als standaarddeviatie groter wordt dan wordt z-score kleiner
handigheid z-score
drukt uit hoe uitzonderlijk een observatie is (op standaard schaal) + gebruik je om te bepalen
hoe groot de kans is dat we die observatie vinden; kans dat een observatie zoveel
standaarddeviaties van het gemiddelde afwijkt
-> standaardiseren: je kunt scores van verschillende metingen met elkaar vergelijken
, empirical rule
toepasbaar wanneer data normaal is verdeeld = 2 (bij precieze berekening 1.96)
associatie vs causaliteit
associatie tussen twee variabelen: waarde ene variabele hangt samen met waarde andere
variabele (leeftijd – inkomen of studie uren – tentamencijfer)
causaliteit: onafhankelijke (explanatory) variabele x heeft een invloed op afhankelijke
(response) variabele y
lineair verband en correlatie
correlatie (r) drukt de sterkte van een lineair verband (constant verband) uit in een cijfer
> positief: als x toeneemt neemt y ook toe
> negatief: als x toeneemt neemt y af
> geen verband: verandering in x gaat niet samen met verandering in y
r ligt altijd tussen -1 en 1
hoe dichter r bij 0 ligt des te zwakker het verband
hoe dichter r bij -1 of 1 ligt des te sterker het verband
-> dichter bij -1, sterkere negatieve correlatie (x omhoog, y omlaag)
dichter bij 1, sterkere positieve correlatie (x omhoog, y omhoog)
waarschuwingen
extrapolatie: uitbreiden van reeks getallen met punten die buiten de reeks liggen: let op je
kan niet oneindig de lijn doortrekken
outliers: correlatie kan worden beinvloed door outliers, goede reden om scatterplot te
bekijken: let op niet elke extreem hoge/lage waarde van x hoeft een impact te hebben en
wordt de trend uberhaupt beinvloed?
causaliteit: bij associatie is er wel altijd spraak van causaliteit, je weet alleen niet hoe de
causaliteit precies in elkaar steekt; 3 mogelijkheden als er correlatie is tussen A en B
1. a veroorzaakt B
2. B veroorzaakt A
3. C veroorzaakt A en B
tabellen voor- en nadelen
pie chart (cirkel): snelle weergave, aantal niet snel af te lezen, meer categorieën maakt het
rommelig
bar graph (staaf): geen snelle weergave, aantal wel snel af te lezen, meer categorieën
mogelijk
College 1 + kennisclips
variabelen: kenmerken van iets of iemand & cases: iets of iemand
inferential statistics: obv steekproef wil je voorspellingen doen over populatie
categorische variabelen: geen waarden als getallen maar kenmerken/categorieën
geslacht/religie/nationaliteit (alleen modus handig om center te bepalen)
(kruistabel, marginale/conditionele proporties, relatief risico, odds ratio)
nominaal: studentnummer, woonplaats & ordinaal: rangordening
kwantitatieve variabelen: getallen als waarden inkomen/leeftijd/gewicht (mediaan en mean
handig om center te bepalen; mediaan als je outliers of scheve verdeling hebt)
(gemiddelde, standaarddeviatie, scatterplot, correlatie)
interval en ratio: rangordening met gelijke afstanden (temperatuur, leeftijd, lengte)
-> discreet: set van aparte nummers (aantal doelpunten)
-> continue: mogelijk dat de waarden een interval vormen (lengte van iemand)
centrummaten:
mediaan: middelste waarneming (bij even aantal waarnemingen -> (10+10)/2)
modus: meest frequente waarneming
mean (gemiddelde): wordt het sterkste beinvloed door ‘de staart’ (tail) van een verdeling
-> skewed to the left (negative) & skewed to the right (positive)
standaarddeviatie
geeft aan hoeveel de data gemiddeld afwijkt van gemiddelde -> uitrekenen:
1. x – x̄ = x – mean (deviatie)
2. deviaties kwadrateren: (x – mean)2
3. alles bij elkaar optellen som(x – mean)2
4. vervolgens delen door aantal observaties – 1 (n – 1)
5. worteltrekken
spreiding en standaarddeviatie
hoe groter standaarddeviatie (s) des te groter spreiding van de data
lagere s suggereert dat er sprake is van consistentie; betrouwbaarder
meer spreiding = minder zekerheid
z-scores
geeft aan hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde ligt
formule: observatie – gemiddelde/standaarddeviatie ( x - x̄/s)
als standaarddeviatie groter wordt dan wordt z-score kleiner
handigheid z-score
drukt uit hoe uitzonderlijk een observatie is (op standaard schaal) + gebruik je om te bepalen
hoe groot de kans is dat we die observatie vinden; kans dat een observatie zoveel
standaarddeviaties van het gemiddelde afwijkt
-> standaardiseren: je kunt scores van verschillende metingen met elkaar vergelijken
, empirical rule
toepasbaar wanneer data normaal is verdeeld = 2 (bij precieze berekening 1.96)
associatie vs causaliteit
associatie tussen twee variabelen: waarde ene variabele hangt samen met waarde andere
variabele (leeftijd – inkomen of studie uren – tentamencijfer)
causaliteit: onafhankelijke (explanatory) variabele x heeft een invloed op afhankelijke
(response) variabele y
lineair verband en correlatie
correlatie (r) drukt de sterkte van een lineair verband (constant verband) uit in een cijfer
> positief: als x toeneemt neemt y ook toe
> negatief: als x toeneemt neemt y af
> geen verband: verandering in x gaat niet samen met verandering in y
r ligt altijd tussen -1 en 1
hoe dichter r bij 0 ligt des te zwakker het verband
hoe dichter r bij -1 of 1 ligt des te sterker het verband
-> dichter bij -1, sterkere negatieve correlatie (x omhoog, y omlaag)
dichter bij 1, sterkere positieve correlatie (x omhoog, y omhoog)
waarschuwingen
extrapolatie: uitbreiden van reeks getallen met punten die buiten de reeks liggen: let op je
kan niet oneindig de lijn doortrekken
outliers: correlatie kan worden beinvloed door outliers, goede reden om scatterplot te
bekijken: let op niet elke extreem hoge/lage waarde van x hoeft een impact te hebben en
wordt de trend uberhaupt beinvloed?
causaliteit: bij associatie is er wel altijd spraak van causaliteit, je weet alleen niet hoe de
causaliteit precies in elkaar steekt; 3 mogelijkheden als er correlatie is tussen A en B
1. a veroorzaakt B
2. B veroorzaakt A
3. C veroorzaakt A en B
tabellen voor- en nadelen
pie chart (cirkel): snelle weergave, aantal niet snel af te lezen, meer categorieën maakt het
rommelig
bar graph (staaf): geen snelle weergave, aantal wel snel af te lezen, meer categorieën
mogelijk