Hoofdstuk 1
Statistics = de kunst en wetenschap van het leren van data
à De kunst en wetenschap van het verzamelen, presenteren en analyseren van data om een
onderzoeksvraag te beantwoorden.
à Doel: het vertalen van data naar kennis en begrip van de wereld om ons heen.
Statistics bevat vier componenten:
1. Het formuleren van een statistische vraag
2. Het verzamelen van data
3. Het analyseren van data
4. Het interpreteren en communiceren van resultaten
Vier onderdelen voor het beantwoorden van een onderzoeksvraag:
1. Design: het doel, de statistische vraag en plannen van hoe je gegevens kunt verkrijgen
2. Description: een samenvatting van de verkregen gegevens
3. Inference: de beslissing en voorspelling die je doet op basis van gegevens om de statistische
vraag te beantwoorden
4. Probability: inschatten hoe waarschijnlijk verschillende uitkomsten zijn
Populatie = de totale verzameling van onderwerpen waarin we geïnteresseerd zijn.
Steekproef = een deelverzameling van de populatie waarvan we gegevens hebben.
à Bijvoorbeeld: 2.348 mensen doen mee aan een enquête
Descriptive statistics (beschrijvende statistiek) = methoden om verzamelde gegevens van een
steekproef of populatie samen te vatten met behulp van grafieken en getallen.
à Doel: gegevens vormen tot eenvoudige samenvattingen zonder veel informatie te verliezen of te
vervormen
Toetsende statistiek = kijken of wat er bij de statistic is gemeten ook op gaat in de populatie.
Inferential statistics = methoden om beslissingen te nemen of voorspellingen te doen op basis van
een steekproef voor een populatie.
Parameter = een numerieke samenvatting van de populatie
Statistic = een numerieke samenvatting van een steekproef uit de populatie
à Werkelijke parameter is meestal onbekend waardoor we een statistic gebruiken om de
parameterwaarde te schatten
Random sampling = een methode om een steekproef te kiezen waarbij elk element uit de populatie
een bekende en gelijke kans heeft om geselecteerd te worden.
à Elke proefpersoon in de populatie heeft een gelijke kans om geselecteerd te worden
Willekeur (randomness) is belangrijk bij het trekken van goede steekproeven en het uitvoeren van
experimenten. Door willekeurig te selecteren of toe te wijzen wordt er voorkomen dat resultaten
vertekend raken door andere factoren.
1
,Within Sample Variability (variabiliteit binnen een steekproef) = bestuderen van hoe metingen
variëren tussen individuen.
Between Sample Variability (variabiliteit tussen steekproeven) = bestuderen van hoe metingen
variëren tussen steekproeven.
Variabiliteit:
1. Hoe observaties van persoon tot persoon binnen een steekproef variëren
2. Hoe een steekproef varieert tot een andere steekproef
Margin of error (foutmarge) = geeft aan hoe dicht een steekproefwaarde waarschijnlijk bij de echte
populatiewaarde ligt.
à Bijvoorbeeld: 60% steunt offdrilling, met een marge van 3% wat betekent dat de echte
populatiewaarde waarschijnlijk tussen de 57% en 63% ligt.
Grote steekproeven leiden tot kleinere marges van fout en dus tot nauwkeurigere schattingen.
Statistic significance (statistisch significant) = twee steekproeven verschillen sterk van elkaar
waardoor het waarschijnlijk niet door toeval komt.
à Significant is wanneer het verschil zo groot is dat het geen toeval kan zijn
à Niet significant is wanneer het verschil zo klein is dat het net zo goed toeval kan zijn
Ongeacht welk data programma je gebruikt zijn er een aantal conventies die je moet volgen:
1. Elke rij bevat metingen voor een bepaald onderwerp (bijvoorbeeld een persoon)
2. Elke kolom bevat metingen voor een bepaald kenmerk
De digitale revolutie heeft big data gecreëerd. Big data is een enorme complexe dataset met
gestructureerde gegevens (zoals spreadsheets) en ongestructureerde gegevens (zoals berichten op
sociale media).
Missing data komt vaak voor in ruwe (onbewerkte) data sets. Deze zijn vaak lastig, omdat het ertoe
kan leiden dat de hele rij wordt weggegooid in de statistische analyse waardoor er dus informatie
verloren gaat. Om te controleren of en hoe beslissingen die tijdens de voorbewerking zijn genomen die
de statistische analyse mogelijk hebben beïnvloed, wordt de volledige analyse herhaald onder een
aantal alternatieve scenario’s.
De meeste onderzoeken gebruiken experimenten of enquêtes om data te verzamelen, maar is het vaak
al genoeg om uit databases informatie te halen. Niet alle databases of gerapporteerde samenvattingen
geven betrouwbare informatie. Je moet dus eerst controleren of de bron betrouwbaar is en de manier
waarop de gegevens zijn verzameld.
Doordat beslissingen met behulp van statistische en datawetenschappelijke hulpmiddelen veel
aspecten van ons persoonlijke leven beïnvloeden, moeten er ethische overwegingen meegenomen
worden. Drie kwesties die relevant zijn bij het omgaan met gegevens op grote schaal:
1) Dataprivacy: big data bestaat vaak uit informatie die gebruikers hebben gegeven bij
bijvoorbeeld het aanmelden voor internet-, bank of sociale media diensten en worden
aangevuld met browsegeschiedenis, koopgewoontes etc.
2
, à De Europese Unie heeft strenge eisen over het gebruik van privégegevens, waaronder het
recht om je gegevens te laten verwijderen. De VS daarentegen heeft weinig beperkingen met
betrekking tot het gebruik van privégegevens.
2) Databeveiliging: als de gegevens privé moeten blijven, moeten ze beschermd en versleuteld
worden zodat anderen geen toegang hebben.
3) Algoritme bias: als het model is gebaseerd op biased data, kan het vrouwen en minderheden
benadelen. Deze algoritmen gedragen zich vaak als zwarte dozen, omdat het onduidelijk is hoe
ze tot hun conclusies komen en op welke basis.
Hoofdstuk 2
Variabele = een kenmerk dat bij elk object of persoon in een onderzoek wordt waargenomen waarvan
kunnen verschillen.
à Bijvoorbeeld: lengte, favoriete sport, inkomen
Variatie = statistische methoden helpen ons om verschillen en patronen in data te begrijpen.
Variabelen worden onderverdeeld in categorische en kwantitatieve variabelen.
Categorische variabelen = deelt observaties in aparte categorieën, zoals geslacht, religie, woonvorm.
Categorische variabelen worden onderverdeeld in nominale en ordinale variabelen.
o Nominaal = categorieën, zonder volgorde
à Bijvoorbeeld: geslacht of kleuren
o Ordinaal = categorieën, met volgorde
à Bijvoorbeeld: opleidingsniveau
à Worden soms weergegeven met getallen (discreet), maar dat is alleen zinvol als de
afstanden tussen de categorieën betekenisvol zijn
Naast deze variabelen hoort ook de modus bij een categorische variabelen. Dit is de categorie met de
hoogste frequentie. Daarnaast kunnen categorische variabelen worden weergeven in verschillende
grafieken: taartdiagram (cirkelschijven), staafdiagram (afzonderlijke balken waarvan de hoogte het
percentage weergeeft) en een paretodiagram (staafdiagram dat categorieën weergeeft van groot naar
klein om te laten zien dat een aantal kleine categorieën vaak het grootste deel van observaties bevat).
Tot slot kan het ook worden weergeven in een frequentietabel (deel : geheel x 100%).
Kwantitatieve variabele = heeft numerieke waarden die een hoeveelheid en grootte weergeven, zoals
lengte, gewicht, inkomen of tijd.
à Slechte labels zijn bijvoorbeeld postcodes en bankrekeningnummers à categorische labels omdat
de getallen geen hoeveelheden voorstellen
Kwantitatieve variabele kunnen worden ingedeeld in discreet en continue variabelen.
o Discrete variabelen = vaste variabele
à Bijvoorbeeld: 8 of 9
o Continue variabelen = losse variabele
à Bijvoorbeeld: 8.679 of 9.867
à Ook als een continue variabele wordt afgerond blijven ze continue
Daarnaast worden ze ook onderverdeeld in interval en ratio variabelen:
o Interval = de intervallen zijn gelijk zonder betekenisvol 0 punt
à Bijvoorbeeld: graden in Celsius en toetsscores
o Ratio = de intervallen zijn gelijk met betekenisvol 0 punt
à Bijvoorbeeld: graden in Kelvin, er is bij de 0 geen aanwezigheid meer
3