Statistiek Hoorcollege 1.1
We weten vaak niet hoe de wereld eruit ziet, bij statistiek willen we vaak vanuit iets specifieks iets
zeggen over de gehele populatie, dit noemen we inductie ofwel generaliseren.
Verschil tussen kansrekening en statistiek
Kansrekening: gaat veelal uit van deductie, gegeven dat we alle details weten van een bepaalde
populatie, hoe waarschijnlijk is dan een bepaalde uitkomt, kansrekening is dus van het algemene →
specifiek.
Statistiek: gaat veelal uit van inductie, gegeven een bepaalde uitkomst, wat kunnen we dat met
welke waarschijnlijkheid zeggen over de populatie, statistiek is dus van het specifieke → algemeen.
Overeenkomsten tussen kansrekening en statistiek
• Een overeenkomst tussen kansrekening en statistiek is het rekenen met toeval (randomness)
• Statistische technieken worden gebruikt om hele populatie te beschrijven
• Sommige statistische technieken maken eerst bepaalde aannames over de populatie om
vervolgens op basis van een steekproef te bepalen hoe onwaarschijnlijk het is dat de
aannames opgaan
Machine learning versus Statistiek
Machine learning: maken van voorspellingen voor individuen/ populaties gebaseerd op voorgaande
resultaten van deze of vergelijkbare individuen, dus op basis van voorgaande observaties, gaan we
voorspellen wat er in de toekomst zal gebeuren, voorgestelde advertenties op netflix, facebook etc.
zijn hier voorbeelden van.
Statistiek: geef een beschrijving van een bepaalde steekproef/ populatie op basis van data verzameld
voor deze steekproef/ populatie.
Definitie Statistiek
Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van numeriek feiten,
die gegevens of date worden genoemd. Je hebt een verschil tussen beschrijvende en inferentiële
statistiek.
Daarnaast refereert het naar diverse methodes voor het verkrijgen en analyseren van data. Deze
methodes bestaan uit:
• Onderzoeksontwerp: onderzoeksontwerp betreft een plan over hoe data verzameld gaan
worden voor onderzoek:
- Hoe worden mensen geworven
- Keuze van de meetpunten: wie en hoeveel?
- Opzet van het experiment: hoeveel condities zijn er en is het een binnen- of tussen-
proefpersonendesign
• Beschrijvende statistiek: beschrijvende statistiek is het samenvatten en vereenvoudigd van
de gevonden data, om de data te begrijpen. Dit gebeurt meestal met behulp van grafieken,
tabellen en getallen zoals het gemiddelde. Ruwe data zijn niet in geheel te begrijpen, omdat
het gaat om de observaties van persoon tot persoon.
• Inductieve statistiek: inductieve statistiek is het maken van een voorspelling, die gebaseerd
is op de gevonden data.
,Statistiek versus methodologie
Methodologie: methodologie gaat er echt om hoe je goed onderzoek doet.
Statistiek: gereedschapskist als je echt onderzoek gaat doen, analyseren, toetsing, rapporteren.
In statistiek onderzoeken we met behulp van data: observaties en karakteristieken
Populatie: de totale set van deelnemers, relevant voor de onderzoeksvraag
• Populatiegrootheid (parameter): gemiddelde aantal uren online zelfstudie per week
Steekproef: een deel van de populatie waarover data verzameld is
• Steekproefgrootheid (statistic): gemiddelde aantal uren online zelfstudie per week
Goede / bruikbaar data om deze onderzoeksvraag te beantwoorden:
• Betrouwbaarheid: dezelfde meting kunnen uitvoeren, dezelfde uitkomsten uitkomen
• Valide: iets wat je observeert, accuraat is voor dat gene wat je wilt meten
De populatie is het totale aantal personen en/ of zaken waarin men geïnteresseerd is binnen een
bepaalde studie. Een steekproef is een deel van de populatie, waarvan de studie data verzamelt. Het
uiteindelijke doel van elke studie is om meer te weten te komen over de populatie, maar vanwege
praktische overwegingen worden vrijwel altijd steekproeven van een bepaalde populatie
geobserveerd.
Beschrijvende statistieken vatten de informatie samen in een collectie van data. Beschrijvende
statistiek bestaat uit grafieken, tabellen en getallen zoals het gemiddelde. Het belangrijkste doel van
beschrijvende statistiek is om data overzichtelijker weer te geven en begrijpelijk te maken.
Inductieve statistiek doen voorspellingen over een populatie, gebaseerd op data van een steekproef
van die populatie. Een parameter is een numeriek samenvatting van de populatie. De
steekproefgrootheid is een numerieke samenvatting van de steekproef.
De parameter is nagenoeg altijd onbekend en wordt voorspeld op basis van de steekproefgrootheid
van een bepaalde populatie. Het is belangrijk dat deze voorspelling nauwkeurig is en dit valt af te
lezen aan de foutmarge. Hoe kleiner de foutmarge, hoe nauwkeuriger de voorspelling. Er wordt
onderscheid gemaakt tussen een actuele en een conceptuele populatie. Een actuele populatie is een
populatie die daadwerkelijk bestaat en een conceptuele populatie is een hypothetische populatie.
100 proefpersonen → 3% margin error. Hoe groter de steekproef, hoe kleiner de margin of error
Variabelen, meetschalen en meetniveaus
Een variabele is een karakteristiek die in een steekproef of populatie in waarde kan variëren eb bij
elke participant gemeten kan worden. Een variabele is bijvoorbeeld inkomen, geslacht of
intelligentie. De waarden, die de variabele aan kan nemen, bepalen de meetschaal.
Een variabele wordt kwantitatief genoemd als de meetschaal waardes bevat die in intensiteit van
elkaar verschillen, zoals het jaarlijkse inkomen. Het moeten ook getalsmatige waarden zijn.
Een variabele is categorisch wanneer de meetschaal bestaat uit een bepaald aantal categorieën,
bijvoorbeeld burgerlijke staat. De categorieën van een categorische variabele verschillen in kwaliteit
en niet in kwantiteit. Daarom noemt men ook wel categorische variabele kwalitatief. Er moet een
onderscheid gemaakt worden tussen kwantitatieve en categorische variabelen, omdat er voor beide
,variabelen verschillende statistische technieken worden gebruikt. Het gemiddelde is bijvoorbeeld
alleen betekenis vol bij een kwantitatieve variabele. Zo zegt een waarde van 1.2 op de variabele
geslacht niet veel.
Bij kwantitatieve variabelen vormen de mogelijke numerieke waardes een zogenaamde
intervalschaal. Intervalschalen hebben een specifieke, gelijke numerieke afstand of interval tussen
elke paar grootheden. Een voorbeeld van een variabele die met behulp van intervalschaal wordt
gemeten is jaarinkomen. Categorische variabelen worden gemeten op twee typen schalen. Bij een
nominale schaal zijn de categorieën niet geordend, dat wil zeggen dat de schaal geen hoog of laag
kent en dat de categorieën dus gelijkwaardig zijn. Geslacht is een voorbeeld van een categorische
variabele die op een nominale schaal wordt gemeten. Bij een ordinale schaal zijn de categorieën wel
geordend, voorbeelden zijn sociale klasse en opleidingsniveau. Ordinale data vallen enigszins tussen
kwalitatieve en kwantitatieve data in. Ordinale data bezitten belangrijke kwantitatieve
eigenschappen: elke waarde is kleiner of groter dan een andere waarde. Soms worden ordinale data
te analyseren met de krachtigere methodes die beschikbaar zijn voor kwantitatieve variabelen.
Op basis van het aantal waardes in de meetschaal wordt ook een onderscheid gemaakt tussen
discrete en continue variabelen. Een variabele is discreet als de mogelijke waardes een gescheiden
set van nummers vormen, zoals 0,1,2,3,4 en 5. Een voorbeeld hiervan is het aantal kinderen in een
huishouden. Een variabele is continu als deze ook alle mogelijke tussenliggende waardes kan
aannemen, zoals 1,54 eb 1,55. Een voorbeeld van een continue variabele is lengte. Alle categorische
variabelen zijn discreet en kwantitatieve variabelen kunnen discreet of continu zijn. In de praktijk
worden kwantitatieve variabelen die veel waardes aan kunne nemen behandeld als continue
variabelen.
Variabele: gemeten karakteristiek die kan verschillen tussen subjecten
• Soorten: gedrags-, stimulus-, fysiologische- variabelen
Meetschalen (NOIR):
• Categorisch/ kwalitatief
- Nominaal: ongeordend categorieën (kleur ogen)
- Ordinaal: geordende categorieën ( opl. Niveau)
• Kwantitatief/ numeriek
- Interval: gelijke afstand tussen opeenvolgende waarden
- Ratio: gelijke afstand en absoluut nulpunt
Bereik:
• Discreet: meeteenheid die ondeelbaar is, afgeronde getallen ( aantal broers/ zussen)
• Continu: oneindig deelbare meeteenheid (lichaamslengte)
Inferentiële statistiek
Op basis van een steekproef uitspraken doen over gehele (doel)- populatie
• Verschil tussen gemeten steekproefgrootheid en populatiegrootheid
- Door natuurlijke variatie (toeval) tussen steekproeven
- Door problemen/ fouten met/ binnen de steekproef
, Om met behulp van een inductieve statistiek voorspellingen te doen over populaties, dient de
steekproef een representatieve weergave van de populatie te zijn. Deze representativiteit wordt
verkregen door middel van randomisatie.
Steekproefproblemen bij inferentiële statistiek
Doel: betrouwbare en valide uitspraken over populatie obv een steekproef
• Steekproefgrootheden dienen dan niet te verschillen van populatiegrootheden
De steekproeffout is de fout die optreed wanneer een steekproefgrootheid gebruikt wordt om de
waarde van de parameter te voorspellen. In de praktijk is de steekproeffout onbekend, omdat de
waarde van de parameter onbekend is.
Bias betekent dat de resultaten van steekproef tot steekproef variëren en heeft, naast de
steekproeffout, ook invloed op de data. Er zijn drie vormen van bias: een steekproefvertekening,
meetfout en selectieve respons. Bij het kiezen van een steekproef, wordt ervan uitgegaan dat elke
persoon een even grote kans heeft om in de steekproef terecht te komen. Dit wordt probability
sampling genoemd. Bij de nonprobability sampling is deze kans voor elke persoon in de populatie
niet even groot, dus is er sprake van een sampling bias. Vaak gaat inductieve statistiek hier wel van
uit. Dit kan dus problemen opleveren.
Nonprobabilityy sampling komt voor bij vrijwillige deelname aan onderzoek. Bij vrijwillige deelname,
nemen vaak mensen deel aan het onderzoek, die te maken hebben met het onderwerp of veel weten
van het onderwerp. Dit kan een onjuiste beeld geven over de parameter. Echter is onderzoek op
basis van vrijwillige deelname soms noodzakelijk, bijvoorbeeld in de medische sector, wanneer twee
medicijnen met elkaar vergeleken worden. Ook kan er onder representatie zijn. Een voorbeeld
hiervan is een onderzoek via het internet. Mensen die geen internet hebben, worden buitengesloten
van dit onderzoek en maken geen kans om inde steekproef te vallen.
Een andere vorm van bias is de meetfout. Hierbij kan de manier waarop vragen gesteld worden een
grote invloed hebben op het antwoord. In een interview kunnen karakteristieken van de interviewer
resulteren in meetfout. Een persoon kan een sociaal wenselijk antwoord geven, wanneer gedacht
wordt dat de interviewer opzoek is. Dit kan de resultaten van het onderzoek sterk beïnvloeden.
Deelnemers die halverwege uitvallen bij een experiment, kunnen zorgen voor selectieve respons. Een
deel van het onderzoek kan daarmee beïnvloed worden. Ook als er gebruik is gemaakt van een
aselecte steekproef, is het nog maar de vraag of de overgebleven deelnemers van de steekproef
representatief genoeg zijn. Als er sprake is van bepaalde vragen, die bij een onderzoek niet worden
ingevuld, dus wanneer er missende gegevens zijn, kan een computer op basis van de verkregen
antwoorden de missende gegevens invullen
Problemen:
• Steekproeffout (sampling error): toevallige steekproefverschillen
• Steekproefvertekening (sampling bias): selectieve werving
• Meetfout (respons bias): incorrect antwoord
• Selectieve respons ( non- respons bias): selectieve deelname
Oplossing: een aselecte of andere probabilistische steekproef van voldoende omvang die informatie
(data) oplevert over iedereen die benaderd is, met correct responses voor alle subjecten op alle
items.
We weten vaak niet hoe de wereld eruit ziet, bij statistiek willen we vaak vanuit iets specifieks iets
zeggen over de gehele populatie, dit noemen we inductie ofwel generaliseren.
Verschil tussen kansrekening en statistiek
Kansrekening: gaat veelal uit van deductie, gegeven dat we alle details weten van een bepaalde
populatie, hoe waarschijnlijk is dan een bepaalde uitkomt, kansrekening is dus van het algemene →
specifiek.
Statistiek: gaat veelal uit van inductie, gegeven een bepaalde uitkomst, wat kunnen we dat met
welke waarschijnlijkheid zeggen over de populatie, statistiek is dus van het specifieke → algemeen.
Overeenkomsten tussen kansrekening en statistiek
• Een overeenkomst tussen kansrekening en statistiek is het rekenen met toeval (randomness)
• Statistische technieken worden gebruikt om hele populatie te beschrijven
• Sommige statistische technieken maken eerst bepaalde aannames over de populatie om
vervolgens op basis van een steekproef te bepalen hoe onwaarschijnlijk het is dat de
aannames opgaan
Machine learning versus Statistiek
Machine learning: maken van voorspellingen voor individuen/ populaties gebaseerd op voorgaande
resultaten van deze of vergelijkbare individuen, dus op basis van voorgaande observaties, gaan we
voorspellen wat er in de toekomst zal gebeuren, voorgestelde advertenties op netflix, facebook etc.
zijn hier voorbeelden van.
Statistiek: geef een beschrijving van een bepaalde steekproef/ populatie op basis van data verzameld
voor deze steekproef/ populatie.
Definitie Statistiek
Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van numeriek feiten,
die gegevens of date worden genoemd. Je hebt een verschil tussen beschrijvende en inferentiële
statistiek.
Daarnaast refereert het naar diverse methodes voor het verkrijgen en analyseren van data. Deze
methodes bestaan uit:
• Onderzoeksontwerp: onderzoeksontwerp betreft een plan over hoe data verzameld gaan
worden voor onderzoek:
- Hoe worden mensen geworven
- Keuze van de meetpunten: wie en hoeveel?
- Opzet van het experiment: hoeveel condities zijn er en is het een binnen- of tussen-
proefpersonendesign
• Beschrijvende statistiek: beschrijvende statistiek is het samenvatten en vereenvoudigd van
de gevonden data, om de data te begrijpen. Dit gebeurt meestal met behulp van grafieken,
tabellen en getallen zoals het gemiddelde. Ruwe data zijn niet in geheel te begrijpen, omdat
het gaat om de observaties van persoon tot persoon.
• Inductieve statistiek: inductieve statistiek is het maken van een voorspelling, die gebaseerd
is op de gevonden data.
,Statistiek versus methodologie
Methodologie: methodologie gaat er echt om hoe je goed onderzoek doet.
Statistiek: gereedschapskist als je echt onderzoek gaat doen, analyseren, toetsing, rapporteren.
In statistiek onderzoeken we met behulp van data: observaties en karakteristieken
Populatie: de totale set van deelnemers, relevant voor de onderzoeksvraag
• Populatiegrootheid (parameter): gemiddelde aantal uren online zelfstudie per week
Steekproef: een deel van de populatie waarover data verzameld is
• Steekproefgrootheid (statistic): gemiddelde aantal uren online zelfstudie per week
Goede / bruikbaar data om deze onderzoeksvraag te beantwoorden:
• Betrouwbaarheid: dezelfde meting kunnen uitvoeren, dezelfde uitkomsten uitkomen
• Valide: iets wat je observeert, accuraat is voor dat gene wat je wilt meten
De populatie is het totale aantal personen en/ of zaken waarin men geïnteresseerd is binnen een
bepaalde studie. Een steekproef is een deel van de populatie, waarvan de studie data verzamelt. Het
uiteindelijke doel van elke studie is om meer te weten te komen over de populatie, maar vanwege
praktische overwegingen worden vrijwel altijd steekproeven van een bepaalde populatie
geobserveerd.
Beschrijvende statistieken vatten de informatie samen in een collectie van data. Beschrijvende
statistiek bestaat uit grafieken, tabellen en getallen zoals het gemiddelde. Het belangrijkste doel van
beschrijvende statistiek is om data overzichtelijker weer te geven en begrijpelijk te maken.
Inductieve statistiek doen voorspellingen over een populatie, gebaseerd op data van een steekproef
van die populatie. Een parameter is een numeriek samenvatting van de populatie. De
steekproefgrootheid is een numerieke samenvatting van de steekproef.
De parameter is nagenoeg altijd onbekend en wordt voorspeld op basis van de steekproefgrootheid
van een bepaalde populatie. Het is belangrijk dat deze voorspelling nauwkeurig is en dit valt af te
lezen aan de foutmarge. Hoe kleiner de foutmarge, hoe nauwkeuriger de voorspelling. Er wordt
onderscheid gemaakt tussen een actuele en een conceptuele populatie. Een actuele populatie is een
populatie die daadwerkelijk bestaat en een conceptuele populatie is een hypothetische populatie.
100 proefpersonen → 3% margin error. Hoe groter de steekproef, hoe kleiner de margin of error
Variabelen, meetschalen en meetniveaus
Een variabele is een karakteristiek die in een steekproef of populatie in waarde kan variëren eb bij
elke participant gemeten kan worden. Een variabele is bijvoorbeeld inkomen, geslacht of
intelligentie. De waarden, die de variabele aan kan nemen, bepalen de meetschaal.
Een variabele wordt kwantitatief genoemd als de meetschaal waardes bevat die in intensiteit van
elkaar verschillen, zoals het jaarlijkse inkomen. Het moeten ook getalsmatige waarden zijn.
Een variabele is categorisch wanneer de meetschaal bestaat uit een bepaald aantal categorieën,
bijvoorbeeld burgerlijke staat. De categorieën van een categorische variabele verschillen in kwaliteit
en niet in kwantiteit. Daarom noemt men ook wel categorische variabele kwalitatief. Er moet een
onderscheid gemaakt worden tussen kwantitatieve en categorische variabelen, omdat er voor beide
,variabelen verschillende statistische technieken worden gebruikt. Het gemiddelde is bijvoorbeeld
alleen betekenis vol bij een kwantitatieve variabele. Zo zegt een waarde van 1.2 op de variabele
geslacht niet veel.
Bij kwantitatieve variabelen vormen de mogelijke numerieke waardes een zogenaamde
intervalschaal. Intervalschalen hebben een specifieke, gelijke numerieke afstand of interval tussen
elke paar grootheden. Een voorbeeld van een variabele die met behulp van intervalschaal wordt
gemeten is jaarinkomen. Categorische variabelen worden gemeten op twee typen schalen. Bij een
nominale schaal zijn de categorieën niet geordend, dat wil zeggen dat de schaal geen hoog of laag
kent en dat de categorieën dus gelijkwaardig zijn. Geslacht is een voorbeeld van een categorische
variabele die op een nominale schaal wordt gemeten. Bij een ordinale schaal zijn de categorieën wel
geordend, voorbeelden zijn sociale klasse en opleidingsniveau. Ordinale data vallen enigszins tussen
kwalitatieve en kwantitatieve data in. Ordinale data bezitten belangrijke kwantitatieve
eigenschappen: elke waarde is kleiner of groter dan een andere waarde. Soms worden ordinale data
te analyseren met de krachtigere methodes die beschikbaar zijn voor kwantitatieve variabelen.
Op basis van het aantal waardes in de meetschaal wordt ook een onderscheid gemaakt tussen
discrete en continue variabelen. Een variabele is discreet als de mogelijke waardes een gescheiden
set van nummers vormen, zoals 0,1,2,3,4 en 5. Een voorbeeld hiervan is het aantal kinderen in een
huishouden. Een variabele is continu als deze ook alle mogelijke tussenliggende waardes kan
aannemen, zoals 1,54 eb 1,55. Een voorbeeld van een continue variabele is lengte. Alle categorische
variabelen zijn discreet en kwantitatieve variabelen kunnen discreet of continu zijn. In de praktijk
worden kwantitatieve variabelen die veel waardes aan kunne nemen behandeld als continue
variabelen.
Variabele: gemeten karakteristiek die kan verschillen tussen subjecten
• Soorten: gedrags-, stimulus-, fysiologische- variabelen
Meetschalen (NOIR):
• Categorisch/ kwalitatief
- Nominaal: ongeordend categorieën (kleur ogen)
- Ordinaal: geordende categorieën ( opl. Niveau)
• Kwantitatief/ numeriek
- Interval: gelijke afstand tussen opeenvolgende waarden
- Ratio: gelijke afstand en absoluut nulpunt
Bereik:
• Discreet: meeteenheid die ondeelbaar is, afgeronde getallen ( aantal broers/ zussen)
• Continu: oneindig deelbare meeteenheid (lichaamslengte)
Inferentiële statistiek
Op basis van een steekproef uitspraken doen over gehele (doel)- populatie
• Verschil tussen gemeten steekproefgrootheid en populatiegrootheid
- Door natuurlijke variatie (toeval) tussen steekproeven
- Door problemen/ fouten met/ binnen de steekproef
, Om met behulp van een inductieve statistiek voorspellingen te doen over populaties, dient de
steekproef een representatieve weergave van de populatie te zijn. Deze representativiteit wordt
verkregen door middel van randomisatie.
Steekproefproblemen bij inferentiële statistiek
Doel: betrouwbare en valide uitspraken over populatie obv een steekproef
• Steekproefgrootheden dienen dan niet te verschillen van populatiegrootheden
De steekproeffout is de fout die optreed wanneer een steekproefgrootheid gebruikt wordt om de
waarde van de parameter te voorspellen. In de praktijk is de steekproeffout onbekend, omdat de
waarde van de parameter onbekend is.
Bias betekent dat de resultaten van steekproef tot steekproef variëren en heeft, naast de
steekproeffout, ook invloed op de data. Er zijn drie vormen van bias: een steekproefvertekening,
meetfout en selectieve respons. Bij het kiezen van een steekproef, wordt ervan uitgegaan dat elke
persoon een even grote kans heeft om in de steekproef terecht te komen. Dit wordt probability
sampling genoemd. Bij de nonprobability sampling is deze kans voor elke persoon in de populatie
niet even groot, dus is er sprake van een sampling bias. Vaak gaat inductieve statistiek hier wel van
uit. Dit kan dus problemen opleveren.
Nonprobabilityy sampling komt voor bij vrijwillige deelname aan onderzoek. Bij vrijwillige deelname,
nemen vaak mensen deel aan het onderzoek, die te maken hebben met het onderwerp of veel weten
van het onderwerp. Dit kan een onjuiste beeld geven over de parameter. Echter is onderzoek op
basis van vrijwillige deelname soms noodzakelijk, bijvoorbeeld in de medische sector, wanneer twee
medicijnen met elkaar vergeleken worden. Ook kan er onder representatie zijn. Een voorbeeld
hiervan is een onderzoek via het internet. Mensen die geen internet hebben, worden buitengesloten
van dit onderzoek en maken geen kans om inde steekproef te vallen.
Een andere vorm van bias is de meetfout. Hierbij kan de manier waarop vragen gesteld worden een
grote invloed hebben op het antwoord. In een interview kunnen karakteristieken van de interviewer
resulteren in meetfout. Een persoon kan een sociaal wenselijk antwoord geven, wanneer gedacht
wordt dat de interviewer opzoek is. Dit kan de resultaten van het onderzoek sterk beïnvloeden.
Deelnemers die halverwege uitvallen bij een experiment, kunnen zorgen voor selectieve respons. Een
deel van het onderzoek kan daarmee beïnvloed worden. Ook als er gebruik is gemaakt van een
aselecte steekproef, is het nog maar de vraag of de overgebleven deelnemers van de steekproef
representatief genoeg zijn. Als er sprake is van bepaalde vragen, die bij een onderzoek niet worden
ingevuld, dus wanneer er missende gegevens zijn, kan een computer op basis van de verkregen
antwoorden de missende gegevens invullen
Problemen:
• Steekproeffout (sampling error): toevallige steekproefverschillen
• Steekproefvertekening (sampling bias): selectieve werving
• Meetfout (respons bias): incorrect antwoord
• Selectieve respons ( non- respons bias): selectieve deelname
Oplossing: een aselecte of andere probabilistische steekproef van voldoende omvang die informatie
(data) oplevert over iedereen die benaderd is, met correct responses voor alle subjecten op alle
items.