WEEK 1 & 2: REGRESSIEANALYSE
Doel van onderzoeken →
o Je wil iets kunnen zeggen over de werkelijkheid en de populatie die je
onderzoekt
- Variabelen →
o Zijn de dingen die je wil meten
- Parameters →
o Zijn de b’s in een regressieformule. Kunnen negatief en positief zijn en geven
daarmee richting
- Model fit bestaat uit 3 vormen:
o 1. Perfect fit = iedereen heeft exact dezelfde scores als de mean
o 2. Non- Perfect fit = de waarden liggen van de gemiddelde lijn
o → Als de waarden nog best in de buurt liggen dan heb je nog een oké model
fit.
- Statistische power →
o De kans dat je een echt effect vindt.
Sum of squared error →
- Afhankelijk van je sample size
Mean squared error → alle losse waarden per persoon
Betrouwbaarheidsinterval en p-waarden situaties:
1. De lijnen overlappen elkaar niet of raken elkaar aan → dan is het altijd P = 0.01
2. De lijnen overlappen elkaar wel → dan is het altijd P = 0.05
Regressielijn → dat is het model wat je wil testen. Representeert dit model, je hele dataset?
- Dat check je met de ANOVA test in de regressieanalyse
- Hoe groter je F-waarde, hoe lager je P. Dat wil je!
- P waarde geeft aan hoe waarschijnlijk zou de nulhypothese zijn onder deze data.
Dit is de ANOVA test in een regressieanalyse:
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression .017 1 .017 231.894 <.001b
Residual .007 90 .000
Total .023 91
a. Dependent Variable: den
1
,b. Predictors: (Constant), lskin
(F(1,90) = 231.894, p < 0.01) → Conclusie is dat het model beter is dan de mean
gebruiken
- Regression staat voor → je model en de Sum of Squared Model.
o Het zegt eigenlijk: Hoeveel gaat mijn model erop vooruit in vergelijking met
als we gewoon een basic mean lijn zouden trekken? Je wil dat deze hoger is
dan je Sum of Squared Error
- Residuals staat voor → de Sum of Squared Error → verschil van de echte waarde
naar de regressielijn
- Total staat voor → Sum of Square total → is de afstand van de echte waarde naar
een basic mean lijn
→ Dit is je Sum of Squared Error
→ Dit is je Sum of Square total
→ Dit is je basic mean lijn
Beta’s → = Gestandaardiseerde waarden.
- De voorspellers zijn in dezelfde eenheid, namelijk standaarddeviaties geformuleerd
waardoor je de sterktes van de voorspellers met elkaar kan vergelijken.
- Gaat altijd door 0 heen waardoor er geen intercept in de output staat.
- De de sterkte beta, heeft het meeste invloed op Y.
o Als X met 1 standaarddeviatie zou toenemen, dan heb je de voorspeller die
met de beta waarden toeneemt of afneemt
B’s → Ongestandaardiseerde waarden.
- De voorspellers staan in hun eigen eenheid zoals euro, meters of kilo’s.
- Hierdoor niet mogelijk om studies en meerdere voorspellers met elkaar te
vergelijken.
o Als X met 1 toeneemt, hoeveel gaat Y dan omhoog of omlaag?
2
, Unieke bijdrage van een voorspeller R Square met de totale verklaring
Het midden stuk wordt niet meegenomen
Waar de cirkels overlappen want is niet te zien
Welke factor dat stukje kan uitleggen.
Je rapporteert een conclusie uiteindelijk zo:
• Income and Urbanisation explain a significant amount of the variance (65.9%) in Daily
calorie intake (F(2,71) = 68.72, p < .01).
• Income and Urbanisation are both significant predictors of Daily calorie intake (resp.
t(71) = 6.13, p < .001 and t(71) = 4.14, p < .001).
• Worldwide, on average, an increase in a country’s yearly income is associated with
increased daily calorie intake (b = 0.04) when controlling for urbanisation.
• Worldwide, on average, an increase in a country’s urbanisation level is associated with
increased daily calorie intake (b = 8.14) when controlling for income.
Normaalverdeling →
- Als je twee bulten ziet dan ben je waarschijnlijk naar 2 populaties aan het kijken
Dependency between errors →
- Je kan een klas hebben waarbij iedereen lager scoort omdat er buiten keiharde
muziek wordt gedraaid.
- Of dat mensen in een tentamenzaal hun antwoorden delen waardoor je dezelfde
resultaten krijgt
Clustering → Je hebt twee wolkjes aan data: boven en beneden of links en rechts een wolkje
Schendingen van de assumpties:
- Je wil juist dat de data random is verdeeld over de grafiek, er is geen patroon
- 1. Homogeniteit
- 2. Lineariteit
3
Doel van onderzoeken →
o Je wil iets kunnen zeggen over de werkelijkheid en de populatie die je
onderzoekt
- Variabelen →
o Zijn de dingen die je wil meten
- Parameters →
o Zijn de b’s in een regressieformule. Kunnen negatief en positief zijn en geven
daarmee richting
- Model fit bestaat uit 3 vormen:
o 1. Perfect fit = iedereen heeft exact dezelfde scores als de mean
o 2. Non- Perfect fit = de waarden liggen van de gemiddelde lijn
o → Als de waarden nog best in de buurt liggen dan heb je nog een oké model
fit.
- Statistische power →
o De kans dat je een echt effect vindt.
Sum of squared error →
- Afhankelijk van je sample size
Mean squared error → alle losse waarden per persoon
Betrouwbaarheidsinterval en p-waarden situaties:
1. De lijnen overlappen elkaar niet of raken elkaar aan → dan is het altijd P = 0.01
2. De lijnen overlappen elkaar wel → dan is het altijd P = 0.05
Regressielijn → dat is het model wat je wil testen. Representeert dit model, je hele dataset?
- Dat check je met de ANOVA test in de regressieanalyse
- Hoe groter je F-waarde, hoe lager je P. Dat wil je!
- P waarde geeft aan hoe waarschijnlijk zou de nulhypothese zijn onder deze data.
Dit is de ANOVA test in een regressieanalyse:
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression .017 1 .017 231.894 <.001b
Residual .007 90 .000
Total .023 91
a. Dependent Variable: den
1
,b. Predictors: (Constant), lskin
(F(1,90) = 231.894, p < 0.01) → Conclusie is dat het model beter is dan de mean
gebruiken
- Regression staat voor → je model en de Sum of Squared Model.
o Het zegt eigenlijk: Hoeveel gaat mijn model erop vooruit in vergelijking met
als we gewoon een basic mean lijn zouden trekken? Je wil dat deze hoger is
dan je Sum of Squared Error
- Residuals staat voor → de Sum of Squared Error → verschil van de echte waarde
naar de regressielijn
- Total staat voor → Sum of Square total → is de afstand van de echte waarde naar
een basic mean lijn
→ Dit is je Sum of Squared Error
→ Dit is je Sum of Square total
→ Dit is je basic mean lijn
Beta’s → = Gestandaardiseerde waarden.
- De voorspellers zijn in dezelfde eenheid, namelijk standaarddeviaties geformuleerd
waardoor je de sterktes van de voorspellers met elkaar kan vergelijken.
- Gaat altijd door 0 heen waardoor er geen intercept in de output staat.
- De de sterkte beta, heeft het meeste invloed op Y.
o Als X met 1 standaarddeviatie zou toenemen, dan heb je de voorspeller die
met de beta waarden toeneemt of afneemt
B’s → Ongestandaardiseerde waarden.
- De voorspellers staan in hun eigen eenheid zoals euro, meters of kilo’s.
- Hierdoor niet mogelijk om studies en meerdere voorspellers met elkaar te
vergelijken.
o Als X met 1 toeneemt, hoeveel gaat Y dan omhoog of omlaag?
2
, Unieke bijdrage van een voorspeller R Square met de totale verklaring
Het midden stuk wordt niet meegenomen
Waar de cirkels overlappen want is niet te zien
Welke factor dat stukje kan uitleggen.
Je rapporteert een conclusie uiteindelijk zo:
• Income and Urbanisation explain a significant amount of the variance (65.9%) in Daily
calorie intake (F(2,71) = 68.72, p < .01).
• Income and Urbanisation are both significant predictors of Daily calorie intake (resp.
t(71) = 6.13, p < .001 and t(71) = 4.14, p < .001).
• Worldwide, on average, an increase in a country’s yearly income is associated with
increased daily calorie intake (b = 0.04) when controlling for urbanisation.
• Worldwide, on average, an increase in a country’s urbanisation level is associated with
increased daily calorie intake (b = 8.14) when controlling for income.
Normaalverdeling →
- Als je twee bulten ziet dan ben je waarschijnlijk naar 2 populaties aan het kijken
Dependency between errors →
- Je kan een klas hebben waarbij iedereen lager scoort omdat er buiten keiharde
muziek wordt gedraaid.
- Of dat mensen in een tentamenzaal hun antwoorden delen waardoor je dezelfde
resultaten krijgt
Clustering → Je hebt twee wolkjes aan data: boven en beneden of links en rechts een wolkje
Schendingen van de assumpties:
- Je wil juist dat de data random is verdeeld over de grafiek, er is geen patroon
- 1. Homogeniteit
- 2. Lineariteit
3