Relaties
Association = relatie tussen twee variabelen
- Twee variabelen zijn associated als de waarde van een van de variabelen je iets
vertelt over de waarde van de andere variabele
Responsvariabele (respsonse variable) = een variabele die het resultaat meet
- Afhankelijke variabele (dependent variable)
Verklarende variabele (explanatory variable) = een variabele die veranderingen in de
responsvariabele verklaart of veroorzaakt.
- Onafhankelijke variabele (indipendent variabele)
Beschrijving van een dataset voor het ontdekken van relaties moet het volgende bevatten:
- Cases
- Categorical/quantitative (variabele indelen)
- Waardes (values)
- Explanatory or respons (variabelen indelen)
- Label (labelvariabele)
Spreidingsdiagrammen (scatterplots)
Spreidingsdiagram (scatterplot) geeft een relatie tussen twee kwantitatieve variabelen die
gemeten zijn op dezelfde case
- Verklarende (explanatory) variabele op de x-as als die er niet zijn, maakt het niet
- Responsvariabel op de y-as uit waar welke variabele staat
- Tijd staat altijd op de x-as
Bekijken van een grafiek
- Kijk naar het algemene patroon en zoek opvallende afwijkingen
- Beschrijf het algemene patroon door de vorm, richting en sterkte van de relatie
o Relatie
Lineair
Gebogen
o Richting
Positieve relatie (zie samenvatting Passer Hoofdstuk 5)
Negatieve relatie (zie samenvatting Passer Hoofdstuk 5)
o Sterkte (Zie kopje correlatie)
Lineaire relatie is sterk als de punten dicht tegen de (smoother) lijn
aanliggen.
Transformaties worden gebruikt om gegevens makkelijker te kunnen analyseren
- Logtransformatie (alleen gebruiken bij positieve waardes)
- Smoothing = het toevoegen van een curve (door een computerprogramma)
Wanneer je een nieuwe categoriale variabele in de spreidingsdiagram (scatterplot) toevoegt,
gebruik je een andere kleur voor de symbolen.
1
,Correlatie
Correlatie (r) meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve
variabelen.
- als r is negatief, dan is er een negatief verband (positief keer negatief is negatief).
- r heeft geen eenheid
- altijd een waarde tussen -1 en 1
o dicht bij 0 betekent een weinig verband (correlatie)
- correlatie meet alleen de sterkte van een lineaire relatie
- r is gevoelig voor outliers
1
r= (x −x́ ¿ ¿ ¿ s x )( y i− ý ¿ ¿ ¿ s y )
n−1 ∑ i
s = standaarddeviatie
x́ = gemiddelde van variabele x
( x i− x́ ¿ ¿ ¿ s x ) = hoeveel standaarddeviaties waarde x boven/onder het gemiddelde ligt
Berekenen van de correlatie
- bereken het gemiddelde en de standaarddeviatie van de x-waarde en y-waarde
- bereken voor elke x-waarde de afwijking van het gemiddelde / standaarddeviatie
- doe dit ook voor de bijbehorende y-waardes
- vermenigvuldig de uitkomst van de x-waarde met de bijbehorende y-waarde
- tel alle uitkomsten bij elkaar op
- deel dit door (N-2)
Het weergeven van een spreidingsdiagram alleen is niet genoeg! Er moet altijd een
gemiddelde en standaarddeviatie bij staan. Want correlatie is gestandaardiseerd.
2
, Regressie
Regressie lijn (regression line) = een rechte lijn die beschrijft hoe een responsevariabele y
verandert als een verklarende (explanatory) variabele x verandert.
- Vaak gebruikt om een waarde (y) te voorspellen
- Regressie (anders dan correlatie) vereist dat er een verklarende en een response
variabele zijn
- y=b0 +b1 x
o b1 = de helling (slope) =de hoeveelheid waarmee y verandert wanneer x met
sy
één eenheid toeneemt ∆ Y /∆ X en is r
sx
geen conclusie trekken uit dit getal, want de grootte is afhankelijk van
de eenheid
o b0 = intercept = de waarde van y wanneer x = 0
geen conclusie trekken uit dit getal, want de grootte is afhankelijk van
de eenheid
- met zo’n lijn kunnen we de waarde van y voorspellen
- bij het tekenen van een regressielijn moeten alle punten op een scatterplot zo dicht
mogelijk bij de lijn liggen
Extrapoleren (extrapolation) = het gebruik van een regressielijn om waardes ver buiten de
reeks (range) van de verklarende (extraplanatory) variabele te voorspellen.
- Vaak niet accuraat en moet daarom vermeden worden
Least-squares regression line of y on x = de lijn die de som van de gebieden van de
verticale afstanden van de gegevenspunten van de lijn zo klein mogelijk maakt
Error = de som van (geobserveerde waarde – voorspelde waarde (=b 0+ b1 x )2
∑ (error )2=∑ ( y i−b 0−b1 x )2i
sy
Voorspelde y-waarde = ^y =b0 +b1 x met b 1=r en b 0= ý−b1 x́
sx
Het kwadraat van de correlatie r2 (square of the correlation) = de fractie van de variatie in
de waarden van y die wordt verklaard door de last-squares regression van y op x
- Geeft aan welk gedeelte van de variatie (=verandering) in de ene variabele door de
andere wordt verklaard
variantie van voorspelde waarde ^y
r 2=
variantie van geobserveerde waarde y
3