Samenvatting Grasplen Week 1
- Kansberekening gaat veelal uit van deducte, dat wil zeggen gegeven dat we alle details
weten van een bepaalde populate, hoe waarschijnlijk is dan een bepaalde (steekproef)
uitkomst?
o Deducte is het afeiden van het bijzondere uit het algemene.
Algemeen -> specifek
Populate -> sample
Model -> data
- Statistiek gaat veelal uit van inducte, dat wil zeggen gegeven een bepaalde (steekproef-)
uitkomst, wat kunnen we dat met welke waarschijnlijkheid zeggen over de populate?
o “Statiteek ii de wetenichap van het verzaielen, organiieren en interpreteren van
nuierieeke feiten, die gegeveni of data worden genoeid.”
o Inducte is het afeiden van het algemene uit het bijzondere.
Algemeen <- specifek
Populate <- sample
Model <- data
Er zijn 3 overeenkomsten tussen statstek en kansberekening:
1. Het rekenen met toeval (randoineii).
2. Statstsche technieken worden gebruikt om hele populate te beschrijven.
o Bijvoorbeeld het gemiddelde leefijd van alle Olympische sporter.
3. Sommige statstsche technieken maken eerst bepaalde aannames over de populate om
vervolgens op basis van een steekproef te bepalen hoe onwaarschijnlijk het is dat de
aannames opgaan.
o Beslisregel in het trekken van conclusies aangaande een populate op basis van een
steekproef: “Als het onwaarschijnlijk is dat hypothese opgaat, dan verwerpen we dat
het waar is.”
De meetlevels van een variabele bepalen welke statstsche toetsen en hulpmiddelen je kan
gebruiken. Je kunt variabele in twee groepen opdelen: meetschalen en bereik.
- Meetschalen:
o Categorische variabele: in te delen in categorieën.
o Continue variabele: meet op een contnue (getalsmatg) schaal.
- Bereik:
o Discreet: meetbare eenheid die ondeelbaar is.
o Continu: oneindige deelbare meetschaal
Binnen de categorische variabele zijn er nominale en ordinale variabele. Nominale variabele zijn
gebaseerd op kwanttateve classifcate zonder een logische orde. Ordinale variabele zijn gebaseerd
op kwanttateve classifcate met logische orde.
Binnen de contnue variabele zijn er interval en rato variabele. Interval variabele en ratio variabele
worden gemeten op een numerieke schaal en de waarde draagt een betekenis. Het verschil tussen
beide variabele is dat interval geen absoluut nulpunt heef, en rato heef wel een absoluut nulpunt.
Met populatie bedoelen we de complete groep waarover we iets willen weten. Een steekproef is een
kleinere groep uit de populate. Je steekproef zou representatef moeten zijn voor de populatee de
karakteristeken zouden hetzelfde moeten zijn in je steekproef.
, Populatie gemiddelde μ steekproefgemiddelde x́
Populatie standaarddeviatie σ Steekproef standaarddeviate s
Er zijn twee soorten statstek, beschrijvende en Inferentële statstek:
- Beschrijvende statistiek, wanneer een steekproef en de populate gelijk aan elkaar zijn.
- Inferentiële statistiek, wanneer de steekproef kleiner is dan de populate.
Meer over inferentële statsteke
- Op basis van een streekproef uitspraken doen over de
gehele (doel-)populate.
o Verschil tussen gemeten steekproefgrootheid en
populategrootheid:
Door natuurlijke variate (toeval) tussen
steekproeven.
Door problemen/ fouten met/binnen de steekproef
Steekproefproblemen bij inferentële statstek
- Doel: een betrouwbare en valide uitspraak doen over een populate onder begeleiding van
een steekproef
o De steekproefgrootheden dienen dan niet te verschillen van de populate
grootheden.
- Probleem:
o Saipling error is een toevallig verschil in de steekproef.
o Saipling biai treedt op wanneer er sprake is van selecteve werving
o Reiponie biai is wanneer partcipanten een incorrect antwoord geven
o Non-reiponie biai is het gevolg van selecteve deelname
- Oplossing:
o “Een aselecte (of andere probabilistsche) steekproef van voldoende omvang die
informate (data) oplevert over iedereen die benaderd is, met correcte responses
voor alle subjecten op alle items.”
Voor het constructe en het lezen van een frequentetabel zijn er vier essentële concepten:
1. Absolute frequentie: het nummer van het aantal keer dat je die waarde hebt waargenomen.
2. Relatieve frequentie: het nummer van het aantal keer dat je die waarde hebt waargenomen,
geuit als een percentage.
3. Relatieve valide frequentie: soms laten mensen een vraag open/ leeg tjdens een vragenlijst.
Daarvoor kan je de relateve frequente vergeleken met iedereen die de vraag wel
beantwoord heef berekenen, of vergelijken tot de mensen die een valide antwoord hebben
gegeven. Dit heet de valide frequente, wanneer deze in percentages wordt weergegeven is
het de relateve valide frequente.
4. Cumulatieve frequentie: hierbij tel je de relateve frequentes van een groep op bij het
percentage van de vorige groep.
In statstek weten we graag het punt waarom de date gecentreerd is. Dit punt noemen we het
centrum, het centrum kent verschillende maten. Wanneer we willen weten welke waarde het
meeste is geobserveerd gebruiken we de modus. De modus is de waarde met de hoogste frequente.
Wanneer er twee waardes zijn met de hoogste frequente betekent dat dat er twee modus zijn.
, Rekenen met de modus bij contnue data is vaak niet logisch en draagt weinig betekenis. De modus
wordt voornamelijk gebruikt bij categorische/ discrete data.
Wanneer er wel gerekend wordt met bepaalde waardes wordt er gebruik gemaakt van formules in
de statstek. Hier beneden kan je zien hoe een bepaalde formule geschreven wordt in dagelijks
taalgebruik en wiskundige taalgebruik:
de som van alle waardes n
gemiddelde cijfer=
het aantal cijfer ∑ Xi
M = i=1
N
M is het substtuut voor gemiddelde (in het Engels Mean), Σ staat voor de som van, N is het totaal
aantal van een waarde, X is voor een waarde. Wanneer er X 3 zou staan is dit een index voor de derde
waarde van X. We kunnen van de index een variabele maken en we noemen deze ‘i’.
Als centrummaat voor interval en rato data gebruiken we het meeste het gemiddelde. De wiskunde
notate van het gemiddelde is:
x́=
∑ (x)
n
x́ = steekproefgemiddelde
x = een (gemeten) waarde
n = het totaal aantal waarde (metngen)
Een andere centrummaat is de mediaan. In het geval van outliers geef het gemiddelde een incorrect
beeld van het centrum. De mediaan daarentegen niet, de mediaan is de middelde waarde van alle
waardes en kan in 4 stappen gevonden worden:
1. Zet de waardes in volgorde van laag naar hoog (of van hoog naar laag)
2. Tel hoeveel waardes er zijn
3. Deel het aantal waardes door twee en rond de uitkomst af
4. Vind aan de hand van de uitkomst hiervan de middelste waarde. Wanneer der een even
aantal waardes is neem je het gemiddelde van deze twee middelste waardes.
Variantie is de mate waarin waardes van elkaar verschillen. Wanneer de spreiding niet een goede
maat is van meten kun je de date opsplitsen in vier delen genaamd kwartielen. Dit doe je in drie
stappen:
1. Zet alle waardes in volgorde
2. Vind de mediaan, of Q2 met de hierboven gegeven stappen
3. Vind de mediaan van het deel links en het deel rechts van Q 2 of liever gezegd vind Q1 en Q3
De middelste 50% van de data zit tussen Q 1 en Q3. De afstand tussen beide is een spreidingsmaat
genaamd interkwartiele spreiding (IQR). Je kan de IQR berekenen door Q1 en Q3 en vervolgens de
afstand tussen beide waarde te berekenen: Q3 - Q1 = IQR.
De boxplot is een fguur waarin de spreiding, het centrum en de posites in één fguur te zien zijn.
Aan de hand van de verworven data wordt een boxplot opgebouwd. Dit kan met de hand of met
computerprogramma’s als SPSS.
- Kansberekening gaat veelal uit van deducte, dat wil zeggen gegeven dat we alle details
weten van een bepaalde populate, hoe waarschijnlijk is dan een bepaalde (steekproef)
uitkomst?
o Deducte is het afeiden van het bijzondere uit het algemene.
Algemeen -> specifek
Populate -> sample
Model -> data
- Statistiek gaat veelal uit van inducte, dat wil zeggen gegeven een bepaalde (steekproef-)
uitkomst, wat kunnen we dat met welke waarschijnlijkheid zeggen over de populate?
o “Statiteek ii de wetenichap van het verzaielen, organiieren en interpreteren van
nuierieeke feiten, die gegeveni of data worden genoeid.”
o Inducte is het afeiden van het algemene uit het bijzondere.
Algemeen <- specifek
Populate <- sample
Model <- data
Er zijn 3 overeenkomsten tussen statstek en kansberekening:
1. Het rekenen met toeval (randoineii).
2. Statstsche technieken worden gebruikt om hele populate te beschrijven.
o Bijvoorbeeld het gemiddelde leefijd van alle Olympische sporter.
3. Sommige statstsche technieken maken eerst bepaalde aannames over de populate om
vervolgens op basis van een steekproef te bepalen hoe onwaarschijnlijk het is dat de
aannames opgaan.
o Beslisregel in het trekken van conclusies aangaande een populate op basis van een
steekproef: “Als het onwaarschijnlijk is dat hypothese opgaat, dan verwerpen we dat
het waar is.”
De meetlevels van een variabele bepalen welke statstsche toetsen en hulpmiddelen je kan
gebruiken. Je kunt variabele in twee groepen opdelen: meetschalen en bereik.
- Meetschalen:
o Categorische variabele: in te delen in categorieën.
o Continue variabele: meet op een contnue (getalsmatg) schaal.
- Bereik:
o Discreet: meetbare eenheid die ondeelbaar is.
o Continu: oneindige deelbare meetschaal
Binnen de categorische variabele zijn er nominale en ordinale variabele. Nominale variabele zijn
gebaseerd op kwanttateve classifcate zonder een logische orde. Ordinale variabele zijn gebaseerd
op kwanttateve classifcate met logische orde.
Binnen de contnue variabele zijn er interval en rato variabele. Interval variabele en ratio variabele
worden gemeten op een numerieke schaal en de waarde draagt een betekenis. Het verschil tussen
beide variabele is dat interval geen absoluut nulpunt heef, en rato heef wel een absoluut nulpunt.
Met populatie bedoelen we de complete groep waarover we iets willen weten. Een steekproef is een
kleinere groep uit de populate. Je steekproef zou representatef moeten zijn voor de populatee de
karakteristeken zouden hetzelfde moeten zijn in je steekproef.
, Populatie gemiddelde μ steekproefgemiddelde x́
Populatie standaarddeviatie σ Steekproef standaarddeviate s
Er zijn twee soorten statstek, beschrijvende en Inferentële statstek:
- Beschrijvende statistiek, wanneer een steekproef en de populate gelijk aan elkaar zijn.
- Inferentiële statistiek, wanneer de steekproef kleiner is dan de populate.
Meer over inferentële statsteke
- Op basis van een streekproef uitspraken doen over de
gehele (doel-)populate.
o Verschil tussen gemeten steekproefgrootheid en
populategrootheid:
Door natuurlijke variate (toeval) tussen
steekproeven.
Door problemen/ fouten met/binnen de steekproef
Steekproefproblemen bij inferentële statstek
- Doel: een betrouwbare en valide uitspraak doen over een populate onder begeleiding van
een steekproef
o De steekproefgrootheden dienen dan niet te verschillen van de populate
grootheden.
- Probleem:
o Saipling error is een toevallig verschil in de steekproef.
o Saipling biai treedt op wanneer er sprake is van selecteve werving
o Reiponie biai is wanneer partcipanten een incorrect antwoord geven
o Non-reiponie biai is het gevolg van selecteve deelname
- Oplossing:
o “Een aselecte (of andere probabilistsche) steekproef van voldoende omvang die
informate (data) oplevert over iedereen die benaderd is, met correcte responses
voor alle subjecten op alle items.”
Voor het constructe en het lezen van een frequentetabel zijn er vier essentële concepten:
1. Absolute frequentie: het nummer van het aantal keer dat je die waarde hebt waargenomen.
2. Relatieve frequentie: het nummer van het aantal keer dat je die waarde hebt waargenomen,
geuit als een percentage.
3. Relatieve valide frequentie: soms laten mensen een vraag open/ leeg tjdens een vragenlijst.
Daarvoor kan je de relateve frequente vergeleken met iedereen die de vraag wel
beantwoord heef berekenen, of vergelijken tot de mensen die een valide antwoord hebben
gegeven. Dit heet de valide frequente, wanneer deze in percentages wordt weergegeven is
het de relateve valide frequente.
4. Cumulatieve frequentie: hierbij tel je de relateve frequentes van een groep op bij het
percentage van de vorige groep.
In statstek weten we graag het punt waarom de date gecentreerd is. Dit punt noemen we het
centrum, het centrum kent verschillende maten. Wanneer we willen weten welke waarde het
meeste is geobserveerd gebruiken we de modus. De modus is de waarde met de hoogste frequente.
Wanneer er twee waardes zijn met de hoogste frequente betekent dat dat er twee modus zijn.
, Rekenen met de modus bij contnue data is vaak niet logisch en draagt weinig betekenis. De modus
wordt voornamelijk gebruikt bij categorische/ discrete data.
Wanneer er wel gerekend wordt met bepaalde waardes wordt er gebruik gemaakt van formules in
de statstek. Hier beneden kan je zien hoe een bepaalde formule geschreven wordt in dagelijks
taalgebruik en wiskundige taalgebruik:
de som van alle waardes n
gemiddelde cijfer=
het aantal cijfer ∑ Xi
M = i=1
N
M is het substtuut voor gemiddelde (in het Engels Mean), Σ staat voor de som van, N is het totaal
aantal van een waarde, X is voor een waarde. Wanneer er X 3 zou staan is dit een index voor de derde
waarde van X. We kunnen van de index een variabele maken en we noemen deze ‘i’.
Als centrummaat voor interval en rato data gebruiken we het meeste het gemiddelde. De wiskunde
notate van het gemiddelde is:
x́=
∑ (x)
n
x́ = steekproefgemiddelde
x = een (gemeten) waarde
n = het totaal aantal waarde (metngen)
Een andere centrummaat is de mediaan. In het geval van outliers geef het gemiddelde een incorrect
beeld van het centrum. De mediaan daarentegen niet, de mediaan is de middelde waarde van alle
waardes en kan in 4 stappen gevonden worden:
1. Zet de waardes in volgorde van laag naar hoog (of van hoog naar laag)
2. Tel hoeveel waardes er zijn
3. Deel het aantal waardes door twee en rond de uitkomst af
4. Vind aan de hand van de uitkomst hiervan de middelste waarde. Wanneer der een even
aantal waardes is neem je het gemiddelde van deze twee middelste waardes.
Variantie is de mate waarin waardes van elkaar verschillen. Wanneer de spreiding niet een goede
maat is van meten kun je de date opsplitsen in vier delen genaamd kwartielen. Dit doe je in drie
stappen:
1. Zet alle waardes in volgorde
2. Vind de mediaan, of Q2 met de hierboven gegeven stappen
3. Vind de mediaan van het deel links en het deel rechts van Q 2 of liever gezegd vind Q1 en Q3
De middelste 50% van de data zit tussen Q 1 en Q3. De afstand tussen beide is een spreidingsmaat
genaamd interkwartiele spreiding (IQR). Je kan de IQR berekenen door Q1 en Q3 en vervolgens de
afstand tussen beide waarde te berekenen: Q3 - Q1 = IQR.
De boxplot is een fguur waarin de spreiding, het centrum en de posites in één fguur te zien zijn.
Aan de hand van de verworven data wordt een boxplot opgebouwd. Dit kan met de hand of met
computerprogramma’s als SPSS.