Cases: objecten beschreven bij set data (klanten, bedrijven, subjectief studie enz.)
Label: speciale variabele gebruikt in sommige data sets om onderscheid te maken in
verschillende cases
Variabele: karakteristiek case
Verschillende cases kunnen verschillende waarden voor variabelen hebben.
Categorische variabele: plaats een groep in een of meerdere groepen categorieën
Kwantitatieve variabele: neemt numerieke waarde voor welke arthismetic operaties logisch zijn
Distributie: vertelt welke waarden een variabele aanneemt en hoe vaak
Let op passende labels en dat kwantitatieve variabelen in zelfde unit of measure staat. Key
karakteristieken: Wie (welke cases, hoeveel)? Wat (hoeveel variabelen, wat zijn de exacte
definities, unit of measure)? Waarom (welk doel, passend voor doel)? Spreadsheet > geen spatie.
Het berekenen van een percentage is één manier om een variabel aan te passen aan de ander >
vaak om een meer betekende variabele toe te voegen;
Exploratory data analyses: statistische tools en ideeën helpen ons data te
examineren en hun mean-karakteristieken te beschrijven. 2 strategieën
organiseren onderzoek:
- Eerst elke variabele zelf examineren, dan pas de relatie
- Start met een grafiek/grafieken. Voeg dan numerieke samenvattingen of
specifieke aspecten data toe
De waarden van categorische variabelen zijn labels voor de categorieën, zoals ja
en nee. De distrubitie van categorische variabelen list de categorieën en geeft
de telling/percentage van de cases die in de categorie vallen.
Nadeel pie chart: alle categorieën moeten erin. Stemplot (links). Bij twee
gerelateerde distributies > back-to-back
stemplot met gemeenschappelijke stems:
Je kan de stem splitsen (0-4 en 5-9). Veel
nummers > trim > verwijderen laatste deel.
Moeilijk bij veel data, geen oordeelverdeling.
Histogram. Zelf klasse kiezen, wel gelijke wijdte. Geen
tussenruimte. Histogrammen met percentages gebruiken
wanneer je verschillende distributies wil gebruiken die
verschillende nummers van observatie hebben.