Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
Samenvatting

Samenvatting - Beschrijvende en Inferentiële Statistiek (PMBIS)

Beoordeling
2.0
(1)
Verkocht
8
Pagina's
98
Geüpload op
11-12-2024
Geschreven in
2023/2024

Dit document bevat een samenvatting incl. college aantekeningen van het vak Beschrijvende en Inferentiële Statistiek van de Pre-master Beleid, Communicatie en Organisatie (BCO)

Instelling
Vak

Voorbeeld van de inhoud

Beschrijvende en inferentiële statistiek
Week 1: College modules 0, 1 & 2




Module 0: enkele statistische basisbegrippen
• Meetniveaus van variabelen: categorisch en kwantitatief

Module 1: het beschrijven van één variabele (beschrijvende univariate statistiek)
• Standaarddeviatie: hoe reken je deze uit en wat is het nut ervan?1
• Z-score: hoe reken je deze uit en wat is het nut ervan?

1.1: Data beschrijven

Tabellen
Je hebt een datamatrix nodig voor al je statistische analyses, het is een overzicht van je data.
Om de resultaten te presenteren, maak je gebruik van samenvattingen van de data. Een goede
manier van samenvatten, is het gebruiken van frequentietabellen.
Een frequentietabel laat zien hoe waarden van de variabelen verdeeld zijn over de cases.
Indien nodig kan je de waardes hercoderen van kwantitatieve waardes (exact) naar ordinale
categorieën (andersom hercoderen kan niet).

Grafieken
Voor het samenvatten van categoriale (ordianale)/nominale variabelen kan je het volgende
gebruiken:
Cirkeldiagram
• Voordeel: je kan onmiddelijk de percentages afleiden
Staafdiagram
• Voordeel: je kan eenvoudiger de exacte aantallen afleiden
Naarmate de categorieën in een variabele toeneemt, is een staafdiagram overzichtelijker dan een
cirkeldiagram.

Voor het samenvatten van kwantitatieve (interval/ratio) variabelen kan je het volgende gebruiken:
• Puntplot
• Histogram (als er veel observaties zijn), maakt gebruik van intervallen

, o Meest voorkomend: Klokvorm met 1 piek en redelijk symmetrisch (unimodel)
o Kan ook scheef zijn, scheef naar linkt is dat de linkerkant platter is, scheef naar rechts
is dat de rechterkant platter is.
o 2 pieken is ook mogelijk (bimodel)
Het beoordelen van de vorm is essentieel omdat het de statistische methode kan
beïnvloeden die je later gaat gebruiken.

1.2: Maten van centraliteit

Modus, mediaan en gemiddelde
Manieren om het centrum (centrale tendens) van je distributie te beschrijven/meten:
• Modus: waarde die het vaakst voorkomt
o Wordt vaak gebruikt wanneer een variabel op een nominaal of ordinaal niveau wordt
gemeten
o Er kan meer dan 1 modus zijn (bijv. bimodel histogram)
• Mediaan: de middelste waarde van de observaties wanneer ze gerangschikt zijn van klein
naar groot
o In het geval van een even aantal observaties, gemiddelde van de middelste 2
waarden
• Gemiddelde: de som van alle waardes delen door het aantal observaties
o Meest gebruikte maatstaf.

Wanneer welke manier gebruikt wordt, hangt deels af van de meetniveau van je variabele.
Als het categorisch (ordinaal)/ nominaal is, is het onmogelijk om de mediaan en gemiddelde te
berekenen. Je kan ze niet ordenen of een numeriek berekening uitvoeren, dus dan is de modus de
enige optie.
Wanneer er een “outliner” aanwezig is, is het beter om de mediaan te gebruiken i.p.v. het
gemiddelde, omdat het gemiddelde dat ver afwijkt. (voorbeeld inkomen voetballer)

1.3: Maten van variantie

Bereik, interkwartielafstand en boxplot
Dit zijn belangrijke maten van de spreiding van een dataverdeling, of manieren om die te laten zien.

Om de verdeling exacter te beschrijven, is er meer nodig dan de centrale tendens maten.
2 maten voor de variabiliteit van de data: bereik en interkwartielafstand.

Simpelste maat van variabiliteit is het bereik.
Bereik: het verschil tussen de hoogste en de laagste waarde.
Het bereik is een maat van de variabiliteit die eenvoudig te begrijpen en berekenen is. Het geeft in
veel gevallen echter geen goede indruk van de variabiliteit van de data. De reden is dat het alleen de
extreme waarden meeneemt.

Interkwartielafstand is een betere maat van dispersie, omdat het de extreme waarden buiten
beschouwing laat. Het verdeelt je verdeling in 4 gelijke delen (kwartielen).
Middelpunt (Q2) is hierdoor gelijk aan de mediaan. De interkwartielafstand is het verschil tussen Q3
en Q1.
Voordeel: Wordt niet beïnvloed door de outliers, omdat het de waardes onder Q1 en boven Q3 niet
meeneemt.
Als vuistregel kunnen observaties worden beschouwt als outliers als ze 1,5*IKR onder Q1 zitten of
1,5*IKR boven Q3.

,De boxplot is een handige grafiek die een goede beschrijving geeft van het centrum, de variabiliteit
en het opsporen van outliers, hoe de waarden in de verdeling verdeeld zijn. Het laat zien:
• Q1, Q2 en Q3
• De minimum en maximum waarde dat geen outlier is
• De outliers
De box zelf betreft de centrale 50% van de verdeling (Q1 tot Q3).
De lengte van de box is dan ook de IKR (Q3 – Q1)
De horizontale lijn binnen de box in de mediaan (Q2)
De verticale lijnen heten snorren (whiskers), deze bevatten de overige waarden behalve de outliers.
Outliers worden apart aangetoond d.m.v. stippen

Variantie en standaarddeviatie
2 andere maten van variabiliteit die vaak worden gebruikt in statistisch onderzoek: variantie en
standaarddeviatie.
Voordeel: ze houden rekening met alle waarden van de variabele.
Formule variantie:



Variantie is de standaarddeviatie in het kwadraat

Variantie (𝑠 2 ) is “de som van de kwadraten van (observatie min gemiddelde)” delen door “de sample
grootte (n) min 1”
We moeten kwadrateren, omdat de som van alleen de deviaties gelijk is aan 0.

Hoe groter de variantie, hoe groter de variabiliteit, hoe meer de waardes zijn verspreid rondom het
gemiddelde.

Belangrijk nadeel van variantie: het is een gekwadrateerde maat.
Simpele oplossing voor dit probleem: de wortel trekken van de variantie, dan krijg je de
standaarddeviatie.
De standaarddeviatie geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde.
Hoe groter de standaarddeviatie, hoe groter de variabiliteit van de data.

Dus formule:




De standaarddeviatie is de meest gebruikte dispersiemaat.

z-scores
De z-score geeft aan hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde afligt.
Hieruit kan worden afgeleid hoe vaak een observatie voorkomt of niet.

Omdat het gemiddelde het balanspunt is van de verdeling, zijn de Z-scores bij elkaar opgeteld gelijk
aan 0.

, Of de Z-score hoog of laag is, hangt af van de verdeling en de context. Een goede vuistregel is dat als
de histogram van je variabele een klokvorm heeft, valt 68% van de waarden tussen de z-scores 1 en -
1, 95% tussen 2 en -2, 99% tussen 3 en -3. (Empiracal rule zoals genoemd in het college)




Een z-score hoger dan 3 of lager dan -3 kan worden gezien als nogal uitzonderlijk.

Als de grafiek scheef staat naar rechts, komen hoge positieve z-scores vaker voor, omdat er meer
extreme waarden zijn aan de rechterkant van de verdeling.




Als de grafiek scheef staat naar links, komen lage negatieve z-scores vaker voor, omdat er meer
extreme waarden zijn aan de linkerkant van de verdeling.




Een regel die voor elke verdeling van toepassing is, ongeacht de vorm, is dat 75% van de data tussen
een z-score van 2 en -2 moet liggen. En 89% van de data tussen een z-score van 3 en -3 moet liggen.

Dus op zichzelf geeft een z-score je, tot een bepaalde hoogte, informatie over hoe extreem een
observatie is. Z-scores zijn nog nuttiger als je verschillende verdelingen wilt vergelijken.

Als we originele waardes hercoderen naar z-scoren, noemen we dat het standaardiseren van een
variabele. Standaardiseren betekent dat we de gemeten waarden vervangen door scores uitgedrukt
in het aantal standaarddeviaties van het gemiddelde. Het voordeel is dat we in één oogopslag kunnne
zien of een bepaalde score vaak voorkomt of niet.

Geschreven voor

Instelling
Studie
Vak

Documentinformatie

Geüpload op
11 december 2024
Aantal pagina's
98
Geschreven in
2023/2024
Type
SAMENVATTING

Onderwerpen

$9.18
Krijg toegang tot het volledige document:

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
1 jaar geleden

2.0

1 beoordelingen

5
0
4
0
3
0
2
1
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
qianqian2001 Hogeschool InHolland
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
16
Lid sinds
7 jaar
Aantal volgers
5
Documenten
8
Laatst verkocht
6 maanden geleden

3.5

2 beoordelingen

5
1
4
0
3
0
2
1
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Bezig met je bronvermelding?

Maak nauwkeurige citaten in APA, MLA en Harvard met onze gratis bronnengenerator.

Bezig met je bronvermelding?

Veelgestelde vragen