Written by students who passed Immediately available after payment Read online or as PDF Wrong document? Swap it for free 4.6 TrustPilot
logo-home
Summary

blok 1.3 samenvatting Moore, McCabe en Craig

Rating
5.0
(1)
Sold
4
Pages
67
Uploaded on
29-01-2019
Written in
2017/2018

Samenvatting van alle tentamenstof uit het boek van Moore, McCabe en Craig. Alles is uitgebreid beschreven met stappenplannen en voorbeelden erbij, zodat het duidelijk uitgelegd is en je alles snapt voor je tentamen.

Institution
Course

Content preview

Chapter 1- looking at data- distributions
1.1-data
Statistiek is de wetenschap van het leren over data.

Cases→hetgeen dat je gaat beschrijven met behulp van data
Label→speciale variabele die wordt gebruikt om data te onderscheiden
Variable→kenmerk van de case, de waarden verschillen per case
Catagorical variable→plaatst de case in 1 van de groepen of categorieën
Quantitative variable→heeft verschillende waarden waarvoor rekenkundige bewerkingen
zinvol zijn (+, :, -)
Distribution of a variable→ welke waarden er zijn en hoe vaak ze voorkomen

➢ Kies een passend label voor de cases
➢ Besteed aandacht aan de kwantitatieve variabelen voordat je ermee gaat werken, zet
bijvoorbeeld 3 minuut 32 om in 3,533 minuten of in 212 seconden.

Units of measurement→refereert naar de seconden of minuten (eenheid)

Ga je statistisch te werk met andermans gegevens, stel je dan drie vragen:
1. Who? Welke en hoe veel cases zijn er?
2. What? Hoe veel variabelen zijn er? Wat is de exacte definitie van de variabele?
3. Why? Wat is het doel van de data? Wat ga ik er mee doen?

Spreadsheet→handig voor simpele berekeningen
➢ Wanneer je een spreadsheet maakt voor eventueel statistisch gebruik, dan kun je het
beste spaties en ruimtes is namen van variabelen vermijden. Beter is om alles aan
elkaar te schrijven of om een laag streepje te gebruiken. (exam_1 of exam1)

Instruments→instrumenten om metingen mee uit te voeren, verschillen per variabele.

➢ Wees er zeker van dat elke variabele echt meet wat je wil meten. Een slechte keuze
van variabelen kan leiden tot misleidende conclusies.
Je kunt bijvoorbeeld beter de rate waarmee iets gebeurt meten, dan een simpele
telling van gebeurtenissen. De rate is dan betekenisvoller.

Rate→er zijn 1000 studenten, waarvan 800 geslaagd. De graduation rate is dan
800/1000=0,80 of 80%.

Adjusting one variable to create another→bijvoorbeeld het aantal studenten en het aantal
geslaagden gebruiken om de graduation rate uit te rekenen.

➢ Denk altijd na over de beste manier om je resultaten met het algemene publiek te
communiceren.


1.2-displaying distributions with graphs
Exploratory data analyses→ gegevens onderzoeken om hun belangrijkste kenmerken te
beschrijven. De basisstrategieën daarbij zijn:
• Begin bij het onderzoeken van elke variabele apart, kijk daarna naar de relaties
ertussen
• Begin met een grafiek, voeg dan pas de numerieke samenvattingen van specifieke
aspecten toe

,Categorical variables, bar graphs and pie charts
Distribution of a categorical variable→categorieën in een lijst zetten en de
telling/procenten erbij voegen. Ook is er een groep met totaal.

➢ Als je een groep ‘’other’’ maakt, ga dan zorgvuldig na of je geen belangrijke
informatie mist.
➢ Bedenkt altijd goed wat de beste manier is om iets weer te geven in een staafdiagram
(op alfabet, op procenten)
➢ In een pie chart zet je alle categorieën, dus ook de categorie ‘other’.

Pie chart→cirkeldiagram

Quantitative variables, stem plots
Stemplot→stem-and-leafplot
1. Scheid de observaties in stammen en bladeren(bladeren bevatten maar 1 cijfer)
2. Schrijf de stammen in een verticale kolom van klein naar groot (boven naar onder) en
teken een lijn achter de stam
3. Naast deze lijn schrijf je de bladeren, van klein naar groot

Wil je twee gerelateerde dingen vergelijken, dan is een back-to-back stemplot een optie.

Ook kun je elke stam splijten in twee, zodat je een categorie krijgt met bladeren van 0-4 en
een met bladeren van 5-9 (splitting each stem)

Ook kun je de stam trimmen, als je te veel cijfers hebt.

Histogrammen
Een histogram gebruik je voor grotere datasets. Je ziet alleen de telling of percentrage van
elke categorie. Daarom is het minder nauwkeurig dan de vorige grafieken. Wel kun je er
goed mee vergelijken.
Als je de staven niet met elkaar vergelijkt, maar als losse dingen ziet, doe er dan een beetje
ruimte tussen.

➢ De vorm van een histogram verandert als je de categorieën verandert.

De tails of the distribution→ daarin zitten de extremen.

De behandeling van een verdeling:
- Als je de achtergrond van je data begrijpt, kun je de data plotten
- Als je de plot bekijkt, kijk je naar het overall pattern en ook naar de striking
deviations (opvallende afwijkingen)
- Daarna kun je het overall pattern beschrijven, je kijkt daarbij naar de shape, center
and spread
- Kijk ten slotte naar de outliers, dat zijn de waarden die buiten het patroon vallen

Midpoint→de helft van de waarden is hoger, de helft is lager
Spread→de kleinste en grootste waarden opschrijven

Het beschrijven van de shape/vorm:
- Zijn er modes(grote pieken)? Is er 1 mode, dan is de grafiek unimodal
- Is de grafiek symmetrisch(spiegelen in middelpunt) of skewed on the right (de
rechter tail is groter dan de linker tail, piek dus links)

➢ Het identificeren van de outliers is belangrijk voor het oordeel. Kijk naar de punten
die apart staan van de grafiek. Zoek daarna voor elke outlier een verklaring.

, ➢ Denk altijd aan waarom je een statistische analyse doet. Dat leidt je de goede kant op
voor het kiezen van de juiste analytische strategie

➢ Als er een verandering over de tijd plaatsvindt, kan een grafiek zonder tijd (histogram,
stemplot, etc.) misleidend zijn. Zet daarom altijd de tijd er bij.


Time plot→plot elke observatie tegen de tijd, waarop de meting gedaan is. Hierbij zet je de
tijd op de horizontale as en de variabele die gemeten is verticaal.


1.3- describing distributions with numbers
Mean→gemiddelde waarde
Middle→middelste waarde
𝑥1+𝑥2+⋯+𝑥𝑛 1
Mean: 𝑥 = 𝑛
= 𝑥 = 𝑛 Σ𝑥i

De mean is gevoelig voor de invloed van een paar extreme warden. Het is geen resistant
measure, want het kan de invloed van extremen niet weerstaan.
Een robust measure minimaliseert de invloed van de extreme waarden.

Median M: de helft van de waarden is groter, de helft is kleiner.
1. Zet de observaties van klein naar groot
2. Als het aantal observaties oneven is, dan neem je het middelste getal
3. Als het aantal observaties even is, dan neem je het gemiddelde van de middelste
twee cijfers.
Berekenen van de locatie van de median kan altijd met (n+1)/2

Wil je weten wat het verschil is: www.whfreeman.com/ips8e

Is de grafiek exact symmetrisch, dan is de mean gelijk aan de median.

Spread of variability: de makkelijkste bruikbare numerieke beschrijving van een verdeling
bestaat zowel uit een meting voor het centrum als een meting voor de spreiding.

De median splitst de data in tweeën, het is dus op de 50%. De rest kan je in quartiles
verdelen.

Pth procent van een verdeling is de waarde die p% onder of op die waarde is.

Q1 en Q3 bereken je als volgt:
1. Orden de waarden en bepaal M
2. Q1 is de median van de linker waarden van M
3. Q3 is de median van de rechter waarden van M

De quartiles zijn resistent voor veranderingen.

The five-number summary
1. Minimum
2. Q1
3. Median M
4. Q3
5. Maximum

, Boxplot→grafiek van de five-number summary.
De box zijn de lijnen van Q1 en Q3, in de box de lijn van M en de lijnen buiten de box zijn de
minimum en maximum en worden ook wel whiskers genoemd. De boxplots heten soms dan
ook box-and-whisker plots.

De afstand tussen de Q1 en Q3 is de interquartile range, IQR.
IQR= Q3-Q1

Je hebt te maken met een outlier als deze1,5*IQR onder Q1 of boven Q3 ligt.

Twee soorten boxplots:
- Modified boxplots→de lijnen uit de box gaan alleen naar de kleinste en grootste
observatie, die niet horen tot de IQR regel
- Side-by-side boxplots→2 of meer boxplots in 1 grafiek, om een bepaalde variabele
te vergelijken

Standard deviation→meet de spreiding door te kijken hoe ver de metingen van het
gemiddelde/de mean af liggen.

Variance s2
(𝑥1−𝑥)2 +(𝑥2−𝑥)2 +…+(𝑥𝑛−𝑥)2 )
s2 =
𝑛−1

standard deviation s
1
s= √𝑛−1 Σ(𝑥𝑖 − 𝑥)2

(x1-x) is de afwijking van de mean x. Als deze negatief is, wordt deze weer positief door het
kwadraat.
Opgeteld zijn de positieve en negatieve afwijkingen nul, daarom wordt er kwadraat gedaan,
dan kun je ze wel optellen.

➢ Waarom kwadrateren we deviaties?
o De som van de gekwadrateerde afwijkingen (van een reeks waarnemingen
van hun gemiddelde) is de kleinste som van de gekwadrateerde afwijkingen
die mogelijk is.
Bij gekwadrateerde afstanden is dat niet zo, dus gekwadrateerde afwijkingen
wijzen op een gemiddelde als middelpunt, afstanden zonder kwadraat niet.
o De standaard deviation is de natuurlijke meting van spreiding voor een
belangrijke klasse van symmetrische unimodale metingen (normal
distributions)
➢ Waarom benadrukken we de standaard deviatie meer dan de variantie?
o S is de natuurlijke spreiding voor normale verdelingen
o Variantie is gekwadrateerd en heeft daardoor niet dezelfde meeteenheid als
de originele observaties. De wortel geeft dat weer terug bij de
standaarddeviatie.
➢ Waarom delen we het gemiddelde door n-1 in plaats van door n als we de variantie
berekenen?
o Omdat de deviaties samen nul zijn, kunnen we de laatste afwijking vinden als
we de andere n-1 weten
o N-1 is degrees of freedom

Written for

Institution
Study
Course

Document information

Uploaded on
January 29, 2019
Number of pages
67
Written in
2017/2018
Type
SUMMARY

Subjects

$6.55
Get access to the full document:

Wrong document? Swap it for free Within 14 days of purchase and before downloading, you can choose a different document. You can simply spend the amount again.
Written by students who passed
Immediately available after payment
Read online or as PDF


Also available in package deal

Reviews from verified buyers

Showing all reviews
6 year ago

5.0

1 reviews

5
1
4
0
3
0
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
esmeecoppoolse Erasmus Universiteit Rotterdam
Follow You need to be logged in order to follow users or courses
Sold
164
Member since
9 year
Number of followers
111
Documents
94
Last sold
1 month ago

3.6

31 reviews

5
8
4
9
3
10
2
1
1
3

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Working on your references?

Create accurate citations in APA, MLA and Harvard with our free citation generator.

Working on your references?

Frequently asked questions