Samenvatting

Samenvatting hoorcolleges Statistische modellen voor Communicatieonderzoek

Beoordeling

Verkocht

Pagina's

Geüpload op

12-03-2025

Geschreven in

2020/2021

Alle hoorcolleges Statistiek voor Communicatieonderzoek uitgebreid samengevat

Instelling

Vak

Voorbeeld van de inhoud

Statistische modellen voor communicatieonderzoek

Hoofdstuk 1
Sampling distribution: How different could my sample have been?

1.1 Statistical inference: making the most of your data
Data verzamelen is kostbaar, we willen daarom met zo min mogelijk data toch zoveel
mogelijk kunnen zeggen over een grote groep. Inferentiële statistiek bestaat uit technieken
waarmee je vanuit minder data een statement kunt maken over een groep met meer data.
De groep waar we een uitspraak over willen doen = populatie. De kleinere groep = sample.
We willen het statement over de sample kunnen generaliseren over de populatie. Meestal
wordt er gebruik gemaakt van een random sample.

1.2 A Discrete Random Variable: How many yellow candies in my bag?
We zijn vaak geïnteresseerd in een bepaald kenmerk binnen een sample, in dit geval de
kleur van snoepjes: geel. Het aantal gele snoepjes in een zak is een voorbeeld van een
sample statistic = een nummer dat het kenmerk van de sample beschrijft (eigenschap van
een sample, heeft een apart nummer voor elke sample die wordt getrokken). Sampling
space = al de mogelijke hoeveelheden gele snoepjes die er in de zak kunnen zitten. Als er
een sample van 10 snoepjes wordt getrokken, zijn dat er dus 0,1,2,3…..,9 of 10. De sample
statistic wordt ook wel een random variabele genoemd, het is een variabele omdat
verschillende samples verschillende aantallen kunnen hebben. Het is een random variabele
omdat het aantal afhangt van een kans, namelijk de kans dat een bepaalde sample is
getrokken. Sommige sample statistic uitkomsten komen vaker voor dan anderen. Dit kunnen
we zien wanneer we de uitkomsten van elke sample in een diagram tekenen (steeds het
aantal gele snoepjes dat gepakt wordt) = sampling distribution. De kans om een zak
snoep te kopen met 5 gele snoepjes erin, is de proportie van alle mogelijke samples dat we
trekken waarin 5 gele snoepjes zitten. Als 20% van de snoepjes in de populatie geel is,
verwachten we dat 1 op de 5 snoepjes geel is. In een zak met 10 snoepjes, verwachten we
dan dat er 2 geel zijn.
Populatie proportie x Het totale aantal nummers in de sample
0,20 x 10 = 2
De expected value (2) is gelijk aan het gemiddelde van de sampling distribution. Expected
value = het gemiddelde van een sampling distribution van een random variabele. De
sampling distribution is een voorbeeld van een probability distribution, dus ook wel: de
expected value is het gemiddelde van een probability distribution. De expected value wordt
daarom ook wel genoemd: de expectation of a probability distribution.
De expected value van de proportie van gele snoepjes in een zak (sample statistic), is gelijk
aan de echte proportie van gele snoepjes in de snoepjesfabriek (population statistic). Een
sample statistic is een unbiased estimator van de population statistic als de expected value
(gemiddelde van de sampling distribution) gelijk is aan de population statistic. De population
statistic wordt ook wel de parameter genoemd.
Niet alle sample statistics zijn unbiased estimators van de population statistic. De
hoeveelheid gele snoepjes die in onze sample is gevonden is 2. Alleen zijn er in de populatie
snoepjes natuurlijk veel meer gele snoepjes omdat de populatie vele malen groter is dan
onze sample. De schatting van 2 is te laag = downward biased. De proportie in de sample

,(20%) is wel een unbiased estimator van de populatieproportie. We gebruiken dus niet het
aantal gele snoepjes maar de proportie gele snoepjes.
Een sample is representatief voor een populatie als de variabelen in de sample hetzelfde
zijn verdeeld als in de populatie.

1.3 A Continuous random variable: overweight and underweight
Nu gaan we kijken naar een andere variabele; het gewicht van snoepjes in een zak.
Gewicht is een continue variabele omdat we altijd kunnen denken aan een nieuwe gewicht
tussen twee gewichten in. Als we altijd kunnen denken aan een nieuwe variabele tussen
twee variabelen in, dan is de variabele continu.
We zijn geïnteresseerd in het gemiddelde totale gewicht van alle snoepjes in een zak =
sample statistic. We willen deze sample statistic gebruiken om iets te zeggen over het
gemiddelde gewicht van één snoepje in de populatie. Is dat mogelijk?
We komen in de problemen als we samples willen trekken van precies een bepaald gewicht
omdat gewicht een continue variabele is. De kans dat we precies een sample trekken van
een zak waarbij het gemiddelde gewicht van een snoepje 2,8 gram is, is nagenoeg 0. Dit is
van toepassing op elk mogelijk gewicht van een snoepje.
Dit probleem kunnen we oplossen door te kijken naar een hele reeks van waarden ipv. een
enkele waarde. We kunnen bijvoorbeeld wél praten over de kans van een zak snoepjes met
minstens het gemiddelde gewicht van 2,8 gram of hooguit 2,8 gram. We kiezen een
drempel: 2,8 gram, en bepalen de mogelijkheid van waarden boven of beneden deze
drempel. We kunnen ook gebruik maken van twee drempels, bijvoorbeeld de kans op een
gemiddeld gewicht van een snoepje tussen 2,75 en 2,85 gram. Kansen moeten we
weergeven als een gebied tussen de horizontale as en een curve: probability density
function. Alles onder de curve is samen 1, dus er komt
altijd een kans kleiner dan 1 uit, zoals het hoort. De kans
van waarden tot (en inclusief) de drempelwaarde of de
drempelwaarde en hoger, worden de p-waarden
genoemd.
Left-hand p value = de kans op waarden onder (en
inclusief) de drempelwaarde.
Right-hand p value = de kans op waarden hoger (en
inclusief) de drempelwaarde.
Er staat bij ‘en inclusief’ omdat de kans dat exact het gemiddelde snoepjes gewicht precies
2,8 gram is, verwaarloosbaar is.

1.4 Concluding remarks
Als het gaat om de kleur van snoepjes (geel), staat bij de sampling distribution op de
horizontale as gewoon de proporties (hoeveelheid). Als we geïnteresseerd zijn in een
steekproefgemiddelde, gaat dat iets anders. Er zijn namelijk gemiddelden op drie niveaus:
de populatie, de sampling distribution en de sample. De sampling distribution is een
verdeling van sample means, maar heeft zelf ook een gemiddelde = expected value. Deze
is hetzelfde als het gemiddelde van de populatie want de expected value is een unbiased
estimator van het populatiegemiddelde. De sampling distribution vertelt ons welke sample
gemiddelden we zullen vinden met welke kansen.

,Hoofdstuk 2
Probability models: How do I get a sampling distribution?

Duizenden samples trekken om vervolgens een sampling distribution te maken is niet
praktisch. In de praktijk kost dit veel te veel geld en tijd. De vraag is hoe we een sampling
distribution maken als we alleen gegevens verzamelen voor maar één sample? Hier zijn drie
manieren voor:
- bootstrapping
- exact approaches
- theoretical approximations

2.1 The Bootstrap approximation of the sampling distribution
Bootstrap samples = een sample vanuit de populatie trekken, en vanuit die ene sample
(initial sample) nog veel meer samples trekken. Meestal willen we ongeveer 5000 bootstrap
samples voor onze uiteindelijke sampling distribution. Een bootstrap sample is net zo groot
als de initial sample. Bestaat de initial sample uit 25 snoepjes, dan bestaat de bootstrap
sample daar ook uit. De grootte van een sample is erg belangrijk voor de vorm van de
sampling distribution. Hoe kunnen er verschillende samples van de initial sample getrokken
worden als de bootstrap sample even groot is als de initial sample? Als elke case uit de
initial sample maar één keer getrokken kan worden, zal de bootstrap sample er exact
hetzelfde uitzien als de initial sample. Dit wordt sampling without replacement genoemd,
dit wordt bijvoorbeeld gedaan als er mensen onderzocht worden. De ene persoon die
onderzocht is wordt niet naderhand weer terug in de sample gedaan om hem vervolgens
weer te kunnen onderzoeken. Als we er wel voor kiezen om dezelfde persoon meerdere
keren te ‘trekken’ doen we aan sampling with replacement. Bootstrap samples zijn
samples with replacement, ze kunnen dus van elkaar verschillen. Als er gebruik wordt
gemaakt van sampling with replacement, blijven de probabilities om bijvoorbeeld een geel
snoepje te trekken hetzelfde. Bij sampling without replacement veranderen die probabilities
wel. Als de populatie groot is, is het verschil tussen twee probabilities verwaarloosbaar. De
veranderingen in probabilities kunnen we negeren als de populatie vele malen groter is dan
de sample. De vraag is of de bootstrapped sampling distribution altijd de echte sampling
distribution reflecteert. Voor grotere samples kunnen we bootstrapped sampling distributions
beter vertrouwen. Zo’n bootstrap distribution lijkt op de distribution die we hadden gekregen
als we heel veel samples uit de populatie zouden trekken, maar dit is niet altijd het geval. De
initial sample moet wel min of meer representatief zijn voor de populatie, als dit niet het
geval is kan de bootstrapped sampling distribution biased zijn. Een sample is vaak
representatief als de sample volledig willekeurig wordt getrokken, en als de sample groot is.
Als de originele sample klein is, zijn we vrij zeker dat de bootstrap distribution niet lijkt op de
echte distribution. Van een kleine sample kunnen we niet veel verschillende samples
trekken, maar van de populatie kunnen we dat wel. Een echte sampling distribution is
daarom veel gevarieerder dan een bootstrapped distribution bij een kleine sample.
Het voordeel van bootstrappen is dat we een sampling distribution kunnen krijgen voor elke
sample statistic waarin we geintereseerd in zijn.

, 2.2 Bootstrapping in SPSS
Independent samples T-test met bootstrapping uitvoeren:
1. Analyze → Compare means → Independent Samples T test
2. Test variable(s): de numerieke variabele, bijv: gewicht
Grouping variable: de variabele van de groepen die je wilt vergelijken, bijv: kleur
3. Define groups → invullen welke groepen (cijfers) je met elkaar gaat vergelijken
4. Bootstrap
★ Perform bootstrapping
Number of samples: (5000 wordt aangeraden)
★ (Set seed for Mersenne Twister → als dit is aangevinkt krijg je altijd dezelfde
samples)
★ Bias corrected accelerated
5. Continue + paste

Independent samples T-test met bootstrapping interpreteren:

- N = 10 → aantal snoepjes in elke groep
- Gemiddelde, standaarddeviatie en confidence interval van elke groep is te zien →
die kan je met elkaar vergelijken

- F = Levene’s F en Sig. = p, in dit geval 0,449 > 0,05
Dus Levene’s F is niet significant
- Sig. (2-tailed) = 0,523 > 0,05
Dus t-test ook niet significant
Er is dus geen statistisch verschil tussen het gewicht van gele en rode
snoepjes.

Meld schending auteursrecht

Geschreven voor

Instelling: Universiteit van Amsterdam (UvA)
Studie: Communicatiewetenschap
Vak: Statistische Modellen voor Communicatieonderzoek (77522101AY)

Alle documenten voor dit vak (26)

Documentinformatie

Geüpload op: 12 maart 2025
Aantal pagina's: 53
Geschreven in: 2020/2021
Type: SAMENVATTING

Onderwerpen

statistiek
spss

$9.16

Krijg toegang tot het volledige document:

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

schoemakerjulie

4.0

(2)

Maak kennis met de verkoper

schoemakerjulie Universiteit van Amsterdam

Bekijk profiel

Volgen

Verkocht

Lid sinds

6 jaar

Aantal volgers

Documenten

Laatst verkocht

1 dag geleden

4.0

2 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper schoemakerjulie. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor $9.16. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 52912 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Samenvatting hoorcolleges Statistische modellen voor Communicatieonderzoek

Voorbeeld van de inhoud

Geschreven voor

Documentinformatie

Onderwerpen

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?