HOOFDSTUK 1:
Inferentiële statistiek bieden technieken voor het maken van verklaringen over een grotere
reeks waarnemingen uit gegevens die zijn verzameld voor een kleinere reeks waarnemingen.
Bevolking= de grote reeks observaties waarover we een verklaring willen afleggen.
Monster= de kleinere set observaties.
We willen een verklaring over de steekproef generaliseren tot een verklaring over de
populatie waaruit we de steekproef hebben getrokken.
Als we willekeurige steekproeven uit dezelfde populatie trekken, zullen we waarschijnlijk
verschillende steekproeven verkrijgen. Geen twee willekeurige monsters uit dezelfde
populatie hoeven identiek te zijn, ook al kunnen ze identiek zijn.
We zijn meestal geïnteresseerd in een bepaald kenmerk van het monster i.p.v. De exacte aard
van elke observatie binnen het monster.
Steekproefstatistiek= een waarde die een kenmerk van het monster beschrijft.
(=willekeurige variabele)
Elke steekproef heeft 1 uitkomstscore op de steekproefstatistiek.
Bemonsteringsruimte= alle mogelijke uitkomstscores
VB: Een zak met tien snoepjes kan 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 of 10 gele snoepjes bevatten.
De getallen 0 tot 10 zijn de bemonsteringsruimte van het steekproefstatistieknummer van gele
snoepjes in een zak.
Willekeurige variabele= het is een variabele omdat verschillende monsters verschillende
scores kunnen hebben, de waarde van een variabele kan van monster tot monster verschillen.
Het is een willekeurige variabelen omdat de score afhankelijk is van het toeval, namelijk
de kans dat een bepaalde steekproef wordt getrokken.
Steekproefverdeling= de verdeling van de uitkomstscores van heel veel monsters (sommige
statistische uitkomsten van monsters komen vaker voor dan andere uitkomsten)
Verteld ons alle mogelijke monsters die we hadden kunnen tekenen.
steekproefverdeling als kansverdeling geeft zeer belangrijke informatie: welke uitkomsten
we kunnen verwachten en de waarschijnlijkheid dat een bepaalde uitkomst kan optreden.
Waarschijnlijkheidsverdeling= een steekproefruimte met een waarschijnlijkheid (tussen 0
en 1) voor elk resultaat van de steekproefstatistiek.
Krijg je als je de frequenties in de steekproefverdeling in verhoudingen veranderen.
Omdat we meestal geïnteresseerd zijn in waarschijnlijkheden, hebben
steekproefverdelingen de neiging om verhoudingen te hebben, dat wil zeggen
waarschijnlijkheden op de verticale as.
, Discrete kansverdeling= slechts een beperkt aantal uitkomsten zijn mogelijk, het is haalbaar
om de waarschijnlijkheid van elke uitkomst afzonderlijk op te sommen
We kunnen naar waarschijnlijkheden verwijzen, zowel als een verhouding, dat wil zeggen een
getal tussen 0 en 1, als als een percentage: een getal tussen 0% en 100%.
Verhoudingen worden over het algemeen beschouwd als de juiste manier om
waarschijnlijkheden uit te drukken.
Als we het echter over waarschijnlijkheden hebben, hebben we de neiging om percentages
te gebruiken; we kunnen bijvoorbeeld zeggen dat de waarschijnlijkheden vijftig-vijftig zijn.
De verwachte waarde is gelijk aan het gemiddelde van de steekproefverdeling
= het gemiddelde van de steekproefverdeling van een willekeurige variabelen.
Het gemiddelde van een kansverdeling
De verwachting van de kansverdeling
Een steekproefstatistiek wordt een onbevooroordeelde schatter van de
bevolkingsstatistiek genoemd als de verwachte waarde (gemiddelde van de
steekproefverdeling) gelijk is aan de bevolkingsstatistiek.
De meeste (niet alle) steekproefstatistieken zijn onbevooroordeelde schatters van de
bevolkingsstatistiek.
Parameter= bevolkingsstatistiek.
Als we het aantal in de populatie (de parameter) zouden schatten op basis van het aantal in de
steekproef - we schatten bijvoorbeeld dat er twee gele snoepjes in de populatie van alle
snoepjes zijn omdat we er twee in onze steekproef van tien hebben - gaan we het aantal in de
populatie enorm onderschatten. Deze schatting is naar beneden bevooroordeeld: het is te
laag.
Het aandeel in de steekproef is een onbevooroordeelde schatter van het bevolkingsaandeel.
Gebruiken we de verhouding van gele snoepjes.
Een steekproef is representatief voor een populatie als variabelen in de steekproef op dezelfde
manier worden verdeeld als in de populatie.
Een willekeurige steekproef waarschijnlijk zal verschillen van de populatie vanwege het
toeval, dus de werkelijke steekproef die we hebben getrokken is meestal niet representatief
voor de bevolking in de strikte zin van het woord.
Het is in principe representatief/ representatief in statistische zin.
Continue variabele= we kunnen altijd een nieuw getal bedenken tussen 2 andere getallen
De kansverdeling van de bemonsteringsruimte, dat wil zeggen van alle mogelijke
uitkomsten, zal erg saai zijn: slechts (bijna) nullen.
Het zal een eeuwigheid duren om alle mogelijke uitkomsten binnen de
bemonsteringsruimte op te sommen, omdat we een oneindig aantal mogelijke uitkomsten
hebben.