Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
Samenvatting

Statistiek 2.2 Samenvatting Moore, Mccabe en Craig

Beoordeling
4.5
(6)
Verkocht
28
Pagina's
43
Geüpload op
02-11-2018
Geschreven in
2018/2019

dit is een samenvatting van het vak statistiek 2.2 op de Erasmus Universiteit (Erasmus School of Social and behavioural Science). Het is een samenvatting van het boek Moore, McCabe en Craig aangevuld met de gegeven college's in dit blok. Het bevat voorbeelden en formules. Het is een samenvatting met alle hoofdstukken uit blok 1.3 (jaar 1) en de hoofdstukken uit blok 2.2 (jaar 2)

Meer zien Lees minder
Instelling
Vak

Voorbeeld van de inhoud

Samenvatting Moore, McCabe en Craig
Hoofdstuk 1 – looking at data
Casussen zijn objecten (subjects) die je omschrijft met data. Deze kun je labelen. Een variabele is een
karaktertrek van een casus die een bepaalde waarde (value) kan aannemen.

Soorten variabelen:
- Categorische variabele: kwalitatieve variabele, verdeelt de casussen in groepen (een
eigenschap, leeftijdscategorie)
- Kwantitatief: een aantal, een hoeveelheid (denk hierbij aan leeftijd, IQ, aantal kinderen of een
percentage)

Meetniveau’s:
Categorische variabelen:
- Ordinaal: categorieën die je kan rangschikken
- Nominaal: categorieën die je niet kan rangschikken
Kwantitatieve variabelen:
- Interval: afstanden tussen waardes zijn interpreteer baar, maar geen absoluut nulpunt.
- Ratio: afstanden tussen waardes met een absoluut nulpunt, denk hierbij aan leeftijd, lengte en
inkomen

Exploratory data analysis: is het onderzoeken en in kaart brengen van de data. Dit gebeurt op 2
verschillende manieren:
- Onderzoek elke variabele apart en daarna onderzoek je de relatie tussen deze 2
- Maak een grafische weergave van de data

Distributie (verdeling) van een variabele, geeft weer welke waardes de variabele aanneemt en hoe
vaak. Een kwantitatieve variabele kun je weergeven door middel van:
- Stemplot (steel blad diagram)
- Histogram: veel kwantitatieve data in 1 keer kwijt. Waardes worden opgedeeld in klassen en
dan wordt weergegeven hoe vaak deze klasse zich voordoet. Er zijn geen ruimtes tussen de
staven en alle klassen (staven) moeten even breed zijn.
Een kwantitatieve variabele kun je weergeven door middel van:
- Staafdiagrammen: categorieën kunnen in een willekeurige volgorde staan, geeft aan hoeveel
waarnemingen in elke categorie vallen.
- Cirkeldiagram: geeft aan hoeveel % een categorie inneemt in het totaal.
Je beschrijft hierbij de verdeling door vorm, centrum en spreiding. Belangrijk deel hierbij is een outlier.
Het gemiddelde is gevoelig voor outliers, de mediaan niet.

Een normale verdeling kan je beschrijven op verschillende manieren:
- Symmetrisch
- Meertoppig: in de toppen zit de modus, de waarde die het meeste voorkomt.
- Scheefheid
o De staart geeft hierbij aan naar welke kant de verdeling scheef is.

Centrummaten
Gemiddelde (mean): wordt sterk beinvloedt door extreme waardes. Het is daarom dus
geen resistente meting. Wordt berekend aan de hand van de volgende formule:

Mediaan (median): is eeen meer resistente metingswaarde dan het gemiddelde. De mediaan is de
middelste waarneming in de data. De helft (50%) van de waardes is groter en 50% is kleiner dan dit
getal. Hiervoor moet je de data eerst sorteren op volgorde, dan het middelste getal nemen.



-1-

,Modus is het getal wat het meeste voorkomt in de meting

Standaarddeviatie is de gemiddelde afwijking van het
gemiddelde, ook deze waarde is niet resistent. Je
berekent deze aan de hand van deze formule:
In stappen is dit:
o Bereken het gemiddelde
o Bereeken voor elke waarde wat het afwijkt van het gemiddelde
o Kwadrateer al deze afwijkingen
o Tel dit bij elkaar op
o Deel dit door n-1 (aantal waardes – 1, dit heet degrees of freedom)
▪ Je hebt nu de variantie berekend (𝑺𝟐 )
o Trek hiervan de wortel en je hebt de standaarddeviatie (S)

De spreiding beschrijf je aan de hand van kwartielen, welke je kan samenvatten in de five-number-
summary:
1 (laagste getal), 2 (1e Quartiel), 3 (2e Quartiel, mediaan), 4 (3e quartiel), 5 (hoogste getal)
Deze kun je vinden door de volgende stappen uit te voeren:
- Bereken de mediaan
- Q1 is de mediaan van alle waardes kleiner dan de gevonden mediaan bij stap 1
- Q3 is de mediaan van alle waardes groter dan de gevonden mediaan bij stap 1

Een boxplot heeft de five-number-summary grafisch weer. De box zijn de verschillende waardes van de
kwartielen en de streepjes zijn de laagste/hoogste waarde in de meting. De boxplot kan gemodificeerd
worden, dit betekent dat de outliers de boxplot niet zodanig beïnvloeden. Dit kan door middel van de
inter quartile range (IQR). Deze wordt berekend door Q3-Q1 x 1.5 te doen. Deze afstand opgeteld bij
Q3 en afgetrokken bij Q1 zijn de uiterste waardes van de streepjes (whiskers) van de boxplots. De
waardes daarbuiten worden beschouwd als outliers.

Lineaire transformatie
Verandert de originele variabele in een nieuwe variabele door er een constante bij op te tellen.
Constante  overal bij optellen of aftrekken zorgt ervoor dat de mediaan, het gemiddelde, de
kwartielen en percentielen toenemen/afnemen met . De Variantie en standaarddeviatie blijven wel
gelijk

Density curves and normal distributions
Een normaal verdeling is een wiskundige benadering van een histogram. Een normale verdeling door
een histogram heen getekend, heet een density curve. Het beschrijft het globale patroon van een
distributie. Er zijn 2 regels:
- Altijd boven of op de horizontale as
- De oppervlakte onder de curve is altijd
opgeteld 1
Het oppervlakte onder de curve is de proportie van een
waarde dat valt in de spreiding.

De mediaan van de density curve verdeelt het
oppervlakte in 2 delen, het gemiddelde is het punt
waar de curve in balans zou kunnen zijn.
Steekproeven over de populatie: S (standaarddeviatie) en 𝑥̅ voor het gemiddelde
In de populatie zelf:  (standaarddeviatie) en  voor het gemiddelde, dit is zo bij de density curve
Steekproef van populatiegemiddelde:  is het gemiddelde en  is de standaardafwijking



-2-

,De density curve van een normaal verdeling is symmetrisch, unimodaal en klokvormig. De top zit bij 
en  zit bij het buigpunt. De notatie is N(, ).
Er geldt een 68-95-99.7 regel bij een normaalverdeling. Dit houdt in dat 68% zich bevindt in   1*,
95% bevindt zich in   2* en 99.7% bevindt zich in   3*.




Normaal verdelingen worden gestandaardiseerd, zodat ze met elkaar kunnen
worden vergeleken. Dit gebeurt aan de hand
van Z-scores. De formule voor Z-scores is:
Hiermee bereken je hoeveel
standaarddeviaties de gevonden waarde X, van het gemiddelde afwijkt. De
gevonden Z-waarde is altijd de linkerkant proportie bij het gebruik van tabel A.
Als X normaal verdeeld is en gestandaardiseerd wordt, wordt de notatie: N (0,1)

Als de lijn van gebeurtenis X in een normaal kwartielplot op een rechte lijn liggen, is gebeurtenis X
normaal verdeeld. Dit doe je alleen via een statistiekprogramma.

Hoofdstuk 2 – Data - relationships

Soorten variabelen:
- Onafhankelijke variabelen: explanatory variabele (verklarende variabele), zij verklaren de
veranderingen in de afhankelijke variabelen
- Afhankelijke variabelen: response variabele (uitkomst variabele) , zij reageren op de
veranderingen in de onafhankelijke variabelen

Variabelen zijn aan elkaar gerelateerd als de waarde van de ene variabele je informatie geeft over dew
aarde van de andere variabele die je anders niet zou hebben.

Scatterplot laat de relatie tussen twee kwantitatieve variabelen gemeten bij dezelfde personen.
Waarden van de ene variabele op de horizontale (x-as, de verklarende variabele) en waarde van de
andere variabele op de verticale (y-as, uitkomst variabele). Ieder individu is een puntje op het
scatterplot.
- Zoek hierbij naar het globale patroon, kijk ook naar afwijkingen van dit patroon. Beschrijf dit
aan de hand van de richting, vorm en sterkte van de gevonden relatie.
- Beschrijf dit patroon aan de hand van de vorm, richting en kracht
- Wees alert voor outliers

Interpretatie:
- Variabelen kunnen positief geassocieerd zijn. Beide variabelen nemen toe of beide variabelen
nemen af. Het is hierbij van belang dat beide variabele dezelfde verandering doorgaan.
- Variabelen kunnen negatief geassocieerd zijn. De variabelen veranderen in tegengestelde
richting, als de een toeneemt, neemt de ander af en andersom.




-3-

, Correlatie:
Een getal wat voor de kracht en de richting van
de relatie tussen de twee variabelen staat. Let
wel, dit gaat om kwantitatieve variabelen. Dit kan
alleen bij een lineair verband. Als beide
variabelen evenredig toenemen. Correlatie heeft
als symbool: r. De formule om correlatie te
berekenen is:




- Geeft alleen lineaire relatie weer en
weet niet wat de oorzaak of het gevolg is.
- Beide variabelen zijn kwantitatief
- Heeft geen eenheid, is gewoon een nummer
- Positief betekent een positieve relatie, negatief betekent een negatieve relatie
- Altijd een getal tussen -1 en 1, het is niet een resistent getal. Gevoelig voor outliers.
Als je wel een categorische variabele wil bekijken, dan moet er gewerkt worden met verschillende
kleuren en/of symbolen.

De variabiliteit van de verschillende variabelen kan berekend
worden met de som of squares. Deze kan je apart berekenen voor x
en y door deze formule:

De covariabiliteit (hoe variëren X en Y samen) kun je berekenen met
de Som of products. Hiervoor gebruik je deze formule:

Deze formules kun je dan ook gebruiken om de correlatie uit te rekenen:

Kleinste kwadraten regressie, least-square-regression

Een regressie lijn is een rechte lijn die laat zien hoe de response variabele reageert op een explanatory
variabele. Aan de hand hiervan kan je waardes gaan voorspellen: 𝑦̂. Hiervoor zijn die twee variabelen
nodig, voor correlatie hoeven ze niet response/explanatory te zijn.

Correlatie behandelt beide variabele als het ware ‘gelijk’, regressie doet dat niet. Regressie is er een
onafhankelijke (predictor) variabele (x) en een afhankelijke (uitkomst) variabele (y).

Als scatterplot een lineair patroon laat zien, kunnen we het algemene patroon beschrijven door hier
een rechte lijn door te trekken. Het fitten van een lijn bij de data betekent dat we een lijn tekenen die
zo dicht mogelijk door de punten loopt.

Regressie vergelijking is:
̂ = 𝒃𝟎 + 𝒃𝟏 𝑿
𝒚
- X is de waarde van de verklarende variabele
- 𝒚 ̂ is de verwachte waarde van de uitkomst variabele voor een gegeven
waarde voor x
- 𝒃𝟏 is de helling, de hoeveelheid waarmee y verandert per 1 stap in de
verandering van X.
- 𝒃𝟎 is de intercept, de waarde van y als x=0



-4-

Gekoppeld boek

Geschreven voor

Instelling
Studie
Vak

Documentinformatie

Heel boek samengevat?
Nee
Wat is er van het boek samengevat?
H1 t/m h13
Geüpload op
2 november 2018
Aantal pagina's
43
Geschreven in
2018/2019
Type
SAMENVATTING

Onderwerpen

$9.55
Krijg toegang tot het volledige document:
Gekocht door 28 studenten

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF

Beoordelingen van geverifieerde kopers

Alle 6 reviews worden weergegeven
6 jaar geleden

6 jaar geleden

6 jaar geleden

6 jaar geleden

6 jaar geleden

6 jaar geleden

4.5

6 beoordelingen

5
3
4
3
3
0
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
jollabot Erasmus Universiteit Rotterdam
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
64
Lid sinds
9 jaar
Aantal volgers
49
Documenten
7
Laatst verkocht
4 maanden geleden

4.4

12 beoordelingen

5
5
4
7
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Bezig met je bronvermelding?

Maak nauwkeurige citaten in APA, MLA en Harvard met onze gratis bronnengenerator.

Bezig met je bronvermelding?

Veelgestelde vragen