College aantekeningen

College aantekeningen statistiek + kennisclips Beschrijvende en inferentiële statistiek

Name: College aantekeningen statistiek + kennisclips Beschrijvende en inferentiële statistiek
SKU: doc_7484266
Rating: 4.00 (1 reviews)
Author: mlmwoudstra

Beoordeling

4.0

(1)

Verkocht

Pagina's

Geüpload op

12-03-2025

Geschreven in

2023/2024

Basisbegrippen: populatie, steekproef, variabelen Beschrijvende statistiek: gemiddelden, mediaan, standaardafwijking Kansrekening en verdelingen: normale verdeling, binomiale verdeling Hypothesetoetsing: t-toets, p-waarde, betrouwbaarheidsintervallen Correlatie en regressieanalyse Duidelijke uitleg + formules

Meer zien Lees minder

Instelling

Vak

Voorbeeld van de inhoud

Statistiek College aantekeningen ALLE tentamenstof +
kennisclips

01 Introductie
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en
presenteren. Die gegevens noemen we data.
Ultieme doel: door middel van data kennis vergaren over de wereld om ons heen.

Beschrijvende statistiek: samenvatting van de verkregen data.
Inferentiële statistiek: uitspraken en voorspellingen doen over hele populatie op basis van de
verkregen data (steekproef).
• To infer = concluderen uit/opmaken uit.
• Terminologie: het boek heeft het over “sample statistic” en “population parameter”.

02 Statistische concepten
Als je kwantitatieve methoden leert, kom je allerlei termen tegen: variabelen, cases, meetniveau
... De video hieronder, waarin je Matthijs Rooduijn van de Universiteit van Amsterdam ziet,
introduceert een paar van de belangrijkste concepten in de statistiek. Hoe zien kwantitatieve
data eruit en hoe praten we daarover?

Variabelen en cases
• Hoeveel goals?
• Hoeveel winnaars?
• Hoeveel panaties?

Goals, winnaars en panalties zijn allemaal stukjes informatie die gezien kunnen worden als
variabelen en cases.

Variabelen zijn kenmerken van iets of iemand.
Cases zijn die dingen of personen.

Stel je voor dat je geïnteresseerd bent in bepaalde kenmerken van spelers. Van elke speler wil je
weten wat zijn of haar gewicht, haarkleur, leeftijd en aantal gescoorde doelpunten. De
variabelen zijn de dingen die je wil weten en de cases zijn de spelers.

Cases kunnen verschillende dingen zijn, voetbal spelers, voetbalteams, maar ook bedrijven,
scholen of zelfs landen. Elk kenmerk van een case kan een variabele genoemd worden, zolang
het aan één essentiële criteria voldoet: het moet variëren.

Wat betekend dat?
Verschillende personen, cases hebben verschillende haarkleuren, leeftijden enzovoort.
Als een variabele niet varieert, zoals bijvoorbeeld land waar de voetbalclub vandaan komt
(Nederland), dat is bij iedere speler hetzelfde. Dan noem je dit NIET een variabele, maar een
constante.

,Er zijn heel veel soorten variabelen, variabelen kunnen veel verschillende kenmerken
representeren. Daarom, en ook vanwege andere redenen die ik later zal bespreken, is het van
essentieel belang om onderscheid te maken tussen verschillende meetniveaus.

Meetniveaus
• Nominale meetniveau
• Ordinale meetniveau
• Interval meetniveau
• Ratio meetniveau

Het meest simpele meetniveau is het nominale meetniveau.
Een nominale variabele bestaat uit verschillende categorieën die van elkaar verschillen. Er is
echter geen rangorde. Dit betekend dat het niet mogelijk is om te stellen dat één categorie beter
of slechter, of meer of beter is dan een andere.
→ Een voorbeeld is de nationaliteit van spelers. Sommige spelers zijn Frans, Spaans,
Mexicaans. Dit verschilt, maar er is geen rangorde.

Het tweede meetniveau is het ordinale niveau. Er is niet alleen verschil in de categorieën van de
variabele, er is ook een rangorde.
→ Een voorbeeld is de volgorde in een voetbalcompetitie. Je weet wie de winnaar is, je weet ook
wie tweede is geworden en derde enzovoort. Echter, door naar de rangorde te kijken, weet je nog
niets over de verschillende tussen de categorieën. Je weet bijvoorbeeld niet hoeveel nummer
één beter was dan de nummer twee.

Zowel nominale als ordinale meetniveaus kunnen categoriale variabelen genoemd worden.

Het volgende meetniveau is het interval niveau. Met interval variabelen, hebben we
verschillende categorieën en een rangorde, maar ook verschillende intervallen tussen de
categorieën.
→ Een voorbeeld is de leeftijd van een voetbalspeler. We kunnen zeggen dat een speler van 18
jaar verschilt van een speler van 16 jaar op het gebied van leeftijd. Daarnaast kunnen we ook
zeggen dat deze speler ouder is dan de andere. Maar we kunnen ook zeggen dat wat betreft
leeftijd, het verschil tussen een speler van 18 jaar oud en een speler van 16 jaar oud
vergelijkbaar is met het verschil tussen een 12 jaar oude en een 14 jaar oude speler.

Het laatste meetniveau is het ratio meetniveau. Het is vergelijkbaar met het interval niveau,
maar het heeft ook een nulpunt met betekenis.
→ Een voorbeeld is lengte, gemeten in centimeters. Er zijn verschillen tussen de categorieën, er
is een rangorde, er zijn vergelijkbare intervallen, en we hebben een betekenisvolle nulpunt. Een
lengte van 0 centimeter betekend dat er helemaal geen lengte is. We kunnen NIET zeggen dat
leeftijd een nulpunt heeft met betekenis, omdat een leeftijd van 0 jaar NIET betekend dat er geen
leeftijd is. Leeftijd is daarom een interval variabele.

Interval en ratio variabelen noemen we kwantitatieve variabelen. Omdat deze categorieën
staan voor numerieke waarden. Kwantitatieve variabelen kunnen ook onderscheiden worden in
discrete en continue variabelen.

Discrete variabelen
Een variabelen is discreet als het mogelijk is dat categorieën een set aparte nummers vormen.
→ Bijvoorbeeld, het aantal gescoorde doelpunten door een speler. Een speler kan bijvoorbeeld
één of twee doelpunten scoren, maar niet 1,21 doelpunten.

,Continue variabelen
Een variabele is continu als het mogelijk is dat de waarden een interval vormen.
→ Een voorbeeld is (opnieuw) de lengte van een speler. Iemand kan 170 cm lang zijn, 171 cm,
maar ook 170,2491 cm. We hebben geen set van aparte nummers, maar een oneindige regio van
waarden.

Waarom is het belangrijk om onderscheid te maken tussen deze
verschillende meetniveaus?
Omdat de methode die we gaan gebruiken om data te analyseren afhangen van het niveau
waarop de variabelen gemeten zijn. Echter, in de praktijk is het onderscheid soms niet zo
duidelijk.
→ Bijvoorbeeld in veel statistische analyses is het verschil tussen het interval en het ratio
niveau niet zo belangrijk.

Bovendien, veel statistici stellen dat als je een ordinale variabele hebt, die gemeten is op een
schaal met tien categorieën of meer, dat je deze variabelen dan mag analyseren alsof het een
kwantitatieve variabele is.
→ Een voorbeeld is een vraag in een vragenlijst die luidt: Op een schaal van 0 tot 10 hoe goed
vind je dat speler X is? Formeel is dit een ordinale variabele, maar in de praktijk mag je
valsspelen en deze variabele behandelen alsof het een kwantitatieve variabele is.

Concluderend, hoe maakt al deze informatie je een betere expert in voetbal? Nou het nadenken
over spelers, clubs en teams en cases en variabelen, maakt je kennis over voetbal meer
gestructureerd.

Ter aanvulling:

→ Er wordt soms een aparte naam gebruikt voor een nominale variabele met twee categorieën:
"dichotoom". We zullen later in de cursus zien dat een dichtome variabele iets andere
eigenschappen heeft dan een nominale variabelen met meer dan twee categorieën.

→ Het onderscheid tussen interval en ratio is in deze cursus niet belangrijk.

→ Een beter voorbeeld van een interval variabele (in plaats van leeftijd) is temperatuur. Een tip
om te onthouden of er sprake is van een betekenisvol nulpunt: als het gisteren 10 graden Celsius
was en vandaag 20 graden is, kun je dan zeggen dat het buiten "twee keer zo warm" is? (10 * 2 =
20).
Nee, want als we dit zouden omrekenen naar graden Fahrenheit (deze schaal heeft een ander
nulpunt), dan is er slechts een temperatuurstijging van 50°F naar 68°F.

→ In tegenstelling tot Matthijs Rooduijn zullen veel andere docenten leeftijd gewoon
een ratio variabele noemen ipv interval. Als je bijvoorbeeld iemand van 2 jaar oud vergelijkt met
iemand van 1 jaar, zullen de meeste mensen zeggen dat deze persoon "twee keer zo oud is".
Tenzij je de filosofische vraag opwerpt wat eigenlijk precies het nulpunt is van "leven". Je zou ook
-9 maanden als nulpunt kunnen kiezen. Maar dan geldt dus niet meer dat iemand van 2 jaar
(nieuwe score van leeftijd wordt dan: 2 jaar + 9 maanden) twee keer zo oud is als iemand van 1
jaar (nieuwe score wordt dan: 1 jaar + 9 maanden)!

, 1.1 Data beschrijven
Deze cursus start met verschillende manieren om data te beschrijven. Module 1 gaat samen met
Hoofdstuk 2 uit Agresti, Franklin, & Klingenberg. De eerste kennisclip hieronder, over tabellen,
introduceert de datastructuur en hoe je die kunt beschrijven in een frequentietabel. De tweede
clip laat zien hoe je dataverdelingen kunt visualiseren in grafieken.

Tabellen
Als je een studie uitvoert, dan is het zinvol om over je data na te denken in termen van cases en
variabelen.

Stel dat je geïnteresseerd bent in de top voetbal competitie in Spanje, Primera Division. De
cases waar je in bent geïnteresseerd zijn de individuele voetbalspelers in de competitie. De
variabelen zijn de leeftijd, gewicht, gescoorde doelpunten, club lidmaatschap en haarkleur. De
beste manier om al deze informatie te ordenen is door middel van een datamatrix.

De datamatrix is het kernelement van elke statistische studie. Het is niets meer dan een
overzicht van al je cases en variabelen. Deze cases worden getoond in de rijen. Ze lopen van
speler 1 tot speler 400. Je kunt zien dat er geen namen getoond worden. Wat betekend dat de
namen geanonimiseerd zijn. De variabelen worden in de kolommen getoond. Er zijn vijf
variabelen, zie tabel. De waarden die hier in de cellen van deze tabellen staan noemen we
observaties. 80.3 betekend dat speler zeven 80,3 kg weegt. De waarde acht betekent dat speler
3 acht doelpunten heeft gescoord.

Wat je hier ziet is NIET de complete datamatrix, het is maar een deel ervan. De complete matrix
past niet op het scherm, omdat het 400 rijen bevat. We hebben namelijk 400 spelers. Door
middels van deze (…) punten in de lijst, maak ik duidelijk dat het NIET de volledige datamatrix is.

Als we naar speler 24 kijken zien we geen waarde voor gewicht, in de volgende rij mist de leeftijd.
We weten dus niet de waarde voor elke combinatie van case en variabele. Voor nu hebben we
deze incomplete cases wel in onze datamatrix getoond. We moeten deze later misschien
verwijderen, als we een statistische analyse willen maken.

→ Je hebt een datamatrix nodig voor al je statistische analyses. Je presenteert je complete
datamatrix echter niet aan andere mensen. De reden daarvoor is de datamatrix vaak heel groot
is, namelijk 400 rijen. Het geeft geen goed overzicht over de statistische informatie.

Wanneer we de info in onze datamatrix aan anderen laten zien, daarvoor gebruiken we
samenvattingen van de data in de vorm van grafieken en tabellen.

Stel je voor dat je een samenvatting wil maken van de informatie van de haarkleur van de
spelers. Een goede manier om dat te doen is het maken van een frequentietabel. Een
frequentietabel laat zien hoe de waarden van een variabele verdeeld zijn. Het is een lijst van alle
mogelijk variabelen samen met een nummer van observaties. Er zijn vier categorieën: blond,
bruin, zwart en overig. JE kunt zien dat 76 voetbalspelers blond haar hebben en 160 spelers
zwart haar hebben. Opgesteld zijn deze waarden 400. Er is dus geen missende waarde voor
haarkleur.

We kunnen ook een relatieve frequentietabel laten zien door middel van percentages. In de
tweede kolom zie je de percentages. Je ziet meteen dat 7.5% van alle spelers overig is. 19% heeft
blond haar. De krijgt de waarde 19 hier door 76 te delen door 400 en te vermenigvuldigen met

Meld schending auteursrecht

Geschreven voor

Instelling: Vrije Universiteit Amsterdam (VU)
Studie: Communicatiewetenschap
Vak: Beschrijvende en inferentiële statistiek (S_BIS)

Alle documenten voor dit vak (22)

Documentinformatie

Geüpload op: 12 maart 2025
Aantal pagina's: 95
Geschreven in: 2023/2024
Type: College aantekeningen
Docent(en): Jasper muis
Bevat: Alle colleges

Onderwerpen

kennisclips
collegeaantekeningen
alle tentamenstof
voorbeelden
r studio

$7.76

Krijg toegang tot het volledige document:

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

mlmwoudstra

4.8

(5)

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven

sorayarijnsaard Algemene Sociale Wetenschappen, Sociologie, Politicologie, Antropologie

11 maanden geleden

4.0

1 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

mlmwoudstra Vrije Universiteit Amsterdam

Bekijk profiel

Volgen

Verkocht

Lid sinds

1 jaar

Aantal volgers

Documenten

Laatst verkocht

4 dagen geleden

4.8

5 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper mlmwoudstra. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor $7.76. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 52815 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

College aantekeningen statistiek + kennisclips Beschrijvende en inferentiële statistiek

Voorbeeld van de inhoud

Geschreven voor

Documentinformatie

Onderwerpen

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?