Samenvatting colleges statistiek 1
Samenvatten van gegevens met kengetallen (beschrijvende statistiek)
Voorspellen op basis van metingen (Inferentiele statistiek)
o Op basis van een steekproef wil men uitspraak doen over de populatie
Populatie: volledige verzameling personen waar de onderzoeksvraag zich op richt. Steekproef:
deelverzameling waarbij gegevens verzameld worden
Aselecte steekproef: een steekproef waarbij iedere mogelijke steekproef van dezelfde omvang
dezelfde waarschijnlijkheid heeft om te worden geselecteerd.
Steekproef variabiliteit: verschillen tussen steekproeven (sampling error) door toeval
Variabele: Eigenschap die in waarde kan variëren tussen personen in een steekproef of
populatie.
Discrete variabele: afzonderlijke meetwaarden (geslacht, opleiding)
Continue variabele: altijd een fijnere indeling mogelijk (lengte, gewicht, tijd) afhankelijk van de
meetprocedure.
Praktische vuistregel voor continue variabelen: >30 mogelijke meetwaarden dan noemen we
de variabele continu, anders discreet
Experimentele variabelen:
Onafhankelijke variabele: dat wat je manipuleert, “de behandeling”, de waardes staan
in je “methode”
Afhankelijke variabele: dat wat je meet, de uitkomsten staan in je “resultaten”
Meetniveaus:
Categorisch (kwalitatief)
Nominaal: onderscheidbaar (man/vrouw/kind, tram/bus/auto)
o Dichotoom (ja/nee, man/vrouw)
Ordinaal: onderscheidbaar + ordening (bijv. rangorde, schaal)
Numeriek (kwantitatief)
Interval: onderscheidbaar + ordening + vaste meeteenheid + gekozen nulpunt
(temperatuur)
Ratio: onderscheidbaar + ordening + vaste meeteenheid + absoluut nulpunt…kun je
niets hebben van wat gemeten wordt
BESCHRIJVENDE STATISTIEK
Tabellen & grafieken
Een variabele: frequentietabel, histogram
Twee variabelen: kruistabel, scatterplot
Steekproefgrootheden/kengetallen (statistics)
Een variabele: centrummaten & spreidingsmaten
Relatie tussen twee variabelen
Frequentie verdeling: Overzicht van de waarden die de variabele kan aannemen (x-as) samen
met het aantal observaties van iedere waarde.
categorische variabele: x-as bevat categorieën
kwantitatieve variabele: x-as numeriek
,Relatieve frequentieverdeling: geeft de proporties (of percentages).
Proportie: freq/totaal aantal waarnemingen
Percentage: proportie*100
Cummulatieve frequentieverdeling:
Centrummaten
Gemiddelde:
o Voor variabelen op interval en ratio niveau
o In een scheve verdeling verplaatst het gemiddelde (gemiddelde cijfer= 6.5,
mediaan&modus=7)
o Gevoelig voor sterke afwijkingen (uitbijters)
Mediaan:
o De middelste waarde als je ze op volgorde rangschikt
o Indien omvang (n) oneven, dan ‘t gemiddelde van middelste 2 waarnemingen
o Ook geschikt voor variabelen van ordinaal meetniveau
o In een symmetrische verdeling is het gemiddelde gelijk aan de mediaan
o Ongevoelig voor sterke afwijkingen
Modus: De waarneming die het meest voorkomt in een reeks is de modus. In andere
woorden, de waarneming met de hoogste frequentie. Zijn er twee waarnemingen allebei
de hoogste frequentie hebben, dan heb je geen modus.
Spreiding
Standaarddeviatie (sd): afwijking van geobserveerde
waarnemingen t.o.v. gemiddelde.
Als de spreiding klein is zal de s klein zijn
sd = spreiding getallenreeks
o eerste formule is voor een reeks getallen
s = schatter van σ (sd populatie) hierbij zijn we
conservatief. Rode streep wijst hier naartoe.
o Tweede formule is de s voor een
statistische toets (op basis van een
steekproef)
Variantie: s in het kwadraat
Bereik (range): maximum-minimum
Samenhang tussen twee variabelen
Kruistabel: categorisch x categorisch
Correlatie: kwantitatief x kwantitatief
categorisch (positief vs negatief denkers) x kwantitatief (angstscore tijdens bewegen)
,College 1 kansverdelingen
Kansverdeling: overzicht van alle mogelijke uitkomsten van een kansproces met de daarbij
behorende kansen.
Aselecte trekking: Ik kies een willekeurige student uit de groep 2013. Wat is de kans op een 10?
Kans=0, onmogelijke gebeurtenis. Wat is de kans op een cijfer tussen 1 en 10? Kans=1 (100%),
gebeurtenis vindt zeker plaats
EMPIRISCHE KANSVERDELING
Relatieve frequentie: frequentie/sample size * 100 (= f(i)/n*100) deel/geheel
Discrete verdeling: per waarde een kans, de som van alle kansen is 1
Continue verdeling: kansdichtheidsfunctie, het oppervlakte onder de curve is 1
Centrummaat van een kansverdeling (Verwachtingswaarde): gemiddelde uitkomst van het
kansproces
gemiddelde uitkomst bij langdurige herhaling van een trekking, als je steekproef maar
groot genoeg is gaat het gemiddelde van de steekproef naar de verwachte waarde in de
populatie.
alle uitkomsten vermenigvuldigen met de kans op die uitkomst en deze producten
optellen.
E(X)= Σ(Xi * fi/n) met P(X=Xi) = fi/n
THEORETISCHE KANSVERDELINGEN
Discrete kansverdelingen:
Uniforme kansverdeling
Binomiale kansverdeling
Continue kansverdelingen:
Normaal verdeling
Z- verdeling
Maar ook, t-verdeling & chi-kwadraat verdeling
Uniforme kansverdelingen: alle mogelijke uitkomsten hebben dezelfde kans – loterijmodel.
Stel er worden 300 loten verkocht wat is de kans op een lot met nr groter dan 200? P(X>200)=
1/3 kans
Voorbeeld: 1x gooien met zuivere dobbelsteen uitkomst is aantal ogen.
Wat is de kans op elk van de zijden? Bijv. Kans om 6 te gooien is 1/6.
De verwachtingswaarde: de uitkomst die je mag verwachten als je het
proces heel vaak herhaalt. Bij het gooien met een zuivere dobbelsteen is
het de waarde 3,5
Bionomiale kansverdelingen: 2 uitkomsten: bijv: raak vs niet raak
Bernoulli experiment wordt het ook wel genoemd
Zijn er slechts 2 mogelijke uitkomsten?
o dichotome variabele: succes of geen succes
Is er een vast aantal onafhankelijke herhalingen (n)?
, o bijv. aantal worpen of objecten/individuen.
Is de kans op succes ( π) voor iedere herhaling gelijk?
Voorbeelden: Kans op munt bij twintig keer
muntje opgooien?
Verwachtingswaarde: E = n π = 20 x 0.5 = 10
kans op aantal keren munt minder dan zeven?
linker overschrijdingskans
n = 20 }
k = 6 P(k ≤ 6) } 5.77%(0.057)
π = 0.5 }
Kan op meer dan 13 keer munt? Rechter overschrijdingskans
P(k ≥ 14) = 1 - P(k < 14) = 1 - P(k ≤ 13) = 1 - .9423 = .0577 = 5.77%
De totale oppervlakte van de binomiaalverdeling is altijd 1.
Kansverdeling van binomiaal π ≠ 0.5
Bij een grotere n (aantal worpen) wordt de binomiaalverdeling meer symmetrisch
Normaal verdeling
Kenmerken normale verdeling:
µ = gemiddelde in de populatie
σ = standaarddeviatie in de populatie
X(met streepje erboven) = gemiddelde in de steekproef
s = standaarddeviatie in de steekproef
Kenmerken normale verdeling:
Verdeling ligt vast als gemiddelde en standaarddeviatie bekend zijn
Verdeling is symmetrisch rond het gemiddelde, klokvormig unimodaal
Gehele verdeling verplaatst naar rechts als gemiddelde >
Verdeling wordt platter en breder als spreiding >
Gemiddelde, mediaan en modus vallen samen
Samenvatten van gegevens met kengetallen (beschrijvende statistiek)
Voorspellen op basis van metingen (Inferentiele statistiek)
o Op basis van een steekproef wil men uitspraak doen over de populatie
Populatie: volledige verzameling personen waar de onderzoeksvraag zich op richt. Steekproef:
deelverzameling waarbij gegevens verzameld worden
Aselecte steekproef: een steekproef waarbij iedere mogelijke steekproef van dezelfde omvang
dezelfde waarschijnlijkheid heeft om te worden geselecteerd.
Steekproef variabiliteit: verschillen tussen steekproeven (sampling error) door toeval
Variabele: Eigenschap die in waarde kan variëren tussen personen in een steekproef of
populatie.
Discrete variabele: afzonderlijke meetwaarden (geslacht, opleiding)
Continue variabele: altijd een fijnere indeling mogelijk (lengte, gewicht, tijd) afhankelijk van de
meetprocedure.
Praktische vuistregel voor continue variabelen: >30 mogelijke meetwaarden dan noemen we
de variabele continu, anders discreet
Experimentele variabelen:
Onafhankelijke variabele: dat wat je manipuleert, “de behandeling”, de waardes staan
in je “methode”
Afhankelijke variabele: dat wat je meet, de uitkomsten staan in je “resultaten”
Meetniveaus:
Categorisch (kwalitatief)
Nominaal: onderscheidbaar (man/vrouw/kind, tram/bus/auto)
o Dichotoom (ja/nee, man/vrouw)
Ordinaal: onderscheidbaar + ordening (bijv. rangorde, schaal)
Numeriek (kwantitatief)
Interval: onderscheidbaar + ordening + vaste meeteenheid + gekozen nulpunt
(temperatuur)
Ratio: onderscheidbaar + ordening + vaste meeteenheid + absoluut nulpunt…kun je
niets hebben van wat gemeten wordt
BESCHRIJVENDE STATISTIEK
Tabellen & grafieken
Een variabele: frequentietabel, histogram
Twee variabelen: kruistabel, scatterplot
Steekproefgrootheden/kengetallen (statistics)
Een variabele: centrummaten & spreidingsmaten
Relatie tussen twee variabelen
Frequentie verdeling: Overzicht van de waarden die de variabele kan aannemen (x-as) samen
met het aantal observaties van iedere waarde.
categorische variabele: x-as bevat categorieën
kwantitatieve variabele: x-as numeriek
,Relatieve frequentieverdeling: geeft de proporties (of percentages).
Proportie: freq/totaal aantal waarnemingen
Percentage: proportie*100
Cummulatieve frequentieverdeling:
Centrummaten
Gemiddelde:
o Voor variabelen op interval en ratio niveau
o In een scheve verdeling verplaatst het gemiddelde (gemiddelde cijfer= 6.5,
mediaan&modus=7)
o Gevoelig voor sterke afwijkingen (uitbijters)
Mediaan:
o De middelste waarde als je ze op volgorde rangschikt
o Indien omvang (n) oneven, dan ‘t gemiddelde van middelste 2 waarnemingen
o Ook geschikt voor variabelen van ordinaal meetniveau
o In een symmetrische verdeling is het gemiddelde gelijk aan de mediaan
o Ongevoelig voor sterke afwijkingen
Modus: De waarneming die het meest voorkomt in een reeks is de modus. In andere
woorden, de waarneming met de hoogste frequentie. Zijn er twee waarnemingen allebei
de hoogste frequentie hebben, dan heb je geen modus.
Spreiding
Standaarddeviatie (sd): afwijking van geobserveerde
waarnemingen t.o.v. gemiddelde.
Als de spreiding klein is zal de s klein zijn
sd = spreiding getallenreeks
o eerste formule is voor een reeks getallen
s = schatter van σ (sd populatie) hierbij zijn we
conservatief. Rode streep wijst hier naartoe.
o Tweede formule is de s voor een
statistische toets (op basis van een
steekproef)
Variantie: s in het kwadraat
Bereik (range): maximum-minimum
Samenhang tussen twee variabelen
Kruistabel: categorisch x categorisch
Correlatie: kwantitatief x kwantitatief
categorisch (positief vs negatief denkers) x kwantitatief (angstscore tijdens bewegen)
,College 1 kansverdelingen
Kansverdeling: overzicht van alle mogelijke uitkomsten van een kansproces met de daarbij
behorende kansen.
Aselecte trekking: Ik kies een willekeurige student uit de groep 2013. Wat is de kans op een 10?
Kans=0, onmogelijke gebeurtenis. Wat is de kans op een cijfer tussen 1 en 10? Kans=1 (100%),
gebeurtenis vindt zeker plaats
EMPIRISCHE KANSVERDELING
Relatieve frequentie: frequentie/sample size * 100 (= f(i)/n*100) deel/geheel
Discrete verdeling: per waarde een kans, de som van alle kansen is 1
Continue verdeling: kansdichtheidsfunctie, het oppervlakte onder de curve is 1
Centrummaat van een kansverdeling (Verwachtingswaarde): gemiddelde uitkomst van het
kansproces
gemiddelde uitkomst bij langdurige herhaling van een trekking, als je steekproef maar
groot genoeg is gaat het gemiddelde van de steekproef naar de verwachte waarde in de
populatie.
alle uitkomsten vermenigvuldigen met de kans op die uitkomst en deze producten
optellen.
E(X)= Σ(Xi * fi/n) met P(X=Xi) = fi/n
THEORETISCHE KANSVERDELINGEN
Discrete kansverdelingen:
Uniforme kansverdeling
Binomiale kansverdeling
Continue kansverdelingen:
Normaal verdeling
Z- verdeling
Maar ook, t-verdeling & chi-kwadraat verdeling
Uniforme kansverdelingen: alle mogelijke uitkomsten hebben dezelfde kans – loterijmodel.
Stel er worden 300 loten verkocht wat is de kans op een lot met nr groter dan 200? P(X>200)=
1/3 kans
Voorbeeld: 1x gooien met zuivere dobbelsteen uitkomst is aantal ogen.
Wat is de kans op elk van de zijden? Bijv. Kans om 6 te gooien is 1/6.
De verwachtingswaarde: de uitkomst die je mag verwachten als je het
proces heel vaak herhaalt. Bij het gooien met een zuivere dobbelsteen is
het de waarde 3,5
Bionomiale kansverdelingen: 2 uitkomsten: bijv: raak vs niet raak
Bernoulli experiment wordt het ook wel genoemd
Zijn er slechts 2 mogelijke uitkomsten?
o dichotome variabele: succes of geen succes
Is er een vast aantal onafhankelijke herhalingen (n)?
, o bijv. aantal worpen of objecten/individuen.
Is de kans op succes ( π) voor iedere herhaling gelijk?
Voorbeelden: Kans op munt bij twintig keer
muntje opgooien?
Verwachtingswaarde: E = n π = 20 x 0.5 = 10
kans op aantal keren munt minder dan zeven?
linker overschrijdingskans
n = 20 }
k = 6 P(k ≤ 6) } 5.77%(0.057)
π = 0.5 }
Kan op meer dan 13 keer munt? Rechter overschrijdingskans
P(k ≥ 14) = 1 - P(k < 14) = 1 - P(k ≤ 13) = 1 - .9423 = .0577 = 5.77%
De totale oppervlakte van de binomiaalverdeling is altijd 1.
Kansverdeling van binomiaal π ≠ 0.5
Bij een grotere n (aantal worpen) wordt de binomiaalverdeling meer symmetrisch
Normaal verdeling
Kenmerken normale verdeling:
µ = gemiddelde in de populatie
σ = standaarddeviatie in de populatie
X(met streepje erboven) = gemiddelde in de steekproef
s = standaarddeviatie in de steekproef
Kenmerken normale verdeling:
Verdeling ligt vast als gemiddelde en standaarddeviatie bekend zijn
Verdeling is symmetrisch rond het gemiddelde, klokvormig unimodaal
Gehele verdeling verplaatst naar rechts als gemiddelde >
Verdeling wordt platter en breder als spreiding >
Gemiddelde, mediaan en modus vallen samen