Module 10
10.1 Hypothesetoetsing met de b-coëfficiënt
Enkelvoudige regressie
Formule:
Regressie ➔ Voorspelen van de Y waarde op basis van 1 of meerdere X-en.
Regressielijn veronderstelt causaliteit. Causaliteit is het verband tussen twee variabelen.
Veronderstellen dat X invloed heeft op Y.
Afhankelijke variabele (Y) ➔ kwantitatief
Onafhankelijke variabele (X) ➔ kwantitatief of categorisch
De gestandaardiseerde b-coëfficiënt (Beta) is hetzelfde als:
De correlatie bij een enkelvoudige regressie
Bij H0 gebruik je de β (beta)
Hypothesetoetsing:
Bereken de t-waarde:
Vrijheidsgraden: df
Betrouwbaarheidsinterval bij een enkelvoudige regressie:
Verschillende manieren voor het toetsen van regressiecoëfficiënt (slope) (b):
- T-statistic
- P-waarde
- Betrouwbaarheidsinterval
1
, 10.2 Residuen en verklarende kracht
Residu = voorspellingsfout
Residu ➔ Verschil tussen geobserveerde en voorspelde waarde
Residu berekenen:
Totale afwijking van de werkelijkheid en de regressielijn: Residual Sum of Squares is dan:
Uit de berekening moet een zo klein mogelijk getal komen. Het is altijd positief.
Hoe goed het model past wordt aangegeven met de r-squared r2 ➔ Het beschrijft de predictive
power
Altijd tussen 0 en 1
Total sum of squares
Y streepje staat voor het gemiddelde.
Regression Model Sum of Squares ➔ Verbetering van de schatting door de regressielijn te gebruiken
in plaats van het gemiddelde.
Verbetering van de schatting = r2
Verbetering van de schatting = proportional reduction in error
Gedeelte dat je verklaart / het totale te verklaren deel
Sum of squares:
- (TSS) Totale sum of squares ➔ Hoeveel de geobserveerde waarden afwijken van het
gemiddelde, gekwadrateerd en bij elkaar opgeteld
- (MSS) Sum of squares van het regressie-model ➔ Hoeveel de voorspelde waarden
(regressiemodel) afwijken van het gemiddelde, gekwadrateerd en bij elkaar opgeteld.
- (RSS) Residual (error) sum of squares ➔ Hoeveel de geobserveerde waarden afwijken van de
voorspelde warden, gekwadrateerd en bij elkaar opgeteld.
Predictive power
- R-kwadraat geeft aan in hoeverre de regressielijn (waarbij je rekening houdt met X) Y beter
voorspelt dan wanneer je het gemiddelde van Y gebruikt.
- Met andere woorden: hoeveel variantie van Y wordt verklaard door X?
r2 = variantie verklaard door het model / totale variantie
2