Lecture 6: marginale modellen
Als er herhalende metingen van y worden gedaan over de tijd, zoals meten of dezelfde groep
scholieren roken na 1 jaar, na 2 jaar en na 3 jaar, moet ook geanalyseerd worden. Echter, er is nog
niet echt de juiste techniek gevonden voor dit soort analyses. Er zijn marginale modellen hiervoor,
maar er zijn hiervoor heel veel modellen en je moet het beste model kiezen.
Waarom een nieuwe techniek?
Waarom gebruik je niet gewoon lineaire/meervoudige regressie modellen?
VOORBEELD: testen van effectiviteit van 2 interventies in het verminderen van angst onder
studenten voor een statistiek vak. Één interventie is het geven van wiskunde trainingen, zodat ze
meer behendigheid krijgen. De andere interventie is gericht of het versterken van zelfvertrouwen.
De uitkomst is de angst voor statistiek (T0), je kan dit meten voor de interventie, kort na de
interventie (T1) en 3 maanden de interventie (T2).
In dit geval zijn er meerdere onafhankelijke variabele, de interventie (twee niveaus) en tijd (T0,T1, T2,
dus drie niveaus). Als je dit met lineaire regressie doet zou het er zo uitzien:
De meting voorafgaand aan de interventie (T0), kan je het beste als een EXTRA onafhankelijke
variabele in het model stoppen. Want, iemand die voor de interventie al angstig is ui zichzelf zal na
de interventie ook nog steeds wel een beetje angstig zijn, dit heeft dus effect op de afhankelijke
variabele.
, Het lijkt er dus op dat als je van 0 naar 1 gaat, dus van statistische training naar confidence training,
dat de angst toeneemt (B1= 1.529). De p-waarde is 0.078, net niet significant, maar wel in de buurt.
Wat is nu het probleem met deze analyse?
Wat waren de aannames van lineaire regressie ook alweer?
- Afhankelijke variabele moet op zijn minst interval niveau zijn. Soms ook toegepast op
variabelen tussen ordinaal en interval schaal voor angst voor stats zit dat hier wel goed.
- Er is een lineaire relatie tussen Y aan de ene kant en de X variabelen aan de andere kant
kan je checken voor het voorbeeld.
- Voorspelfouten (die heb je altijd), zijn onafhankelijk van elkaar lastig in dit voorbeeld want
in de voorspelfouten kan nog wel eens wat systematiek zitten omdat je steeds dezelfde
personen meet, vooropleiding van de participanten blijft namelijk altijd constant
bijvoorbeeld.
- Voorspelfouten moeten normaal verdeeld zijn kunnen we checken
- Voor elke voorspelde waarde van Y moet de variantie van de error terms hetzelfde zijn.
Snel testen of de error scores van de resultaten op T1 en T2 correleren met elkaar. Kan door de twee
voorspelfouten voor beide tijdstippen even tegen elkaar uit te zetten in een plot. Er lijkt wel een
positieve te zijn. Lage voorspelfouten op T1 hangen samen met negatieve voorspelfouten op T2, en
andersom. De error termen zijn dus gecorreleerd. Hij lijkt zelf met 0,89 te correleren. Dus de
aanname van lineaire regressie is geschonden.
Als er herhalende metingen van y worden gedaan over de tijd, zoals meten of dezelfde groep
scholieren roken na 1 jaar, na 2 jaar en na 3 jaar, moet ook geanalyseerd worden. Echter, er is nog
niet echt de juiste techniek gevonden voor dit soort analyses. Er zijn marginale modellen hiervoor,
maar er zijn hiervoor heel veel modellen en je moet het beste model kiezen.
Waarom een nieuwe techniek?
Waarom gebruik je niet gewoon lineaire/meervoudige regressie modellen?
VOORBEELD: testen van effectiviteit van 2 interventies in het verminderen van angst onder
studenten voor een statistiek vak. Één interventie is het geven van wiskunde trainingen, zodat ze
meer behendigheid krijgen. De andere interventie is gericht of het versterken van zelfvertrouwen.
De uitkomst is de angst voor statistiek (T0), je kan dit meten voor de interventie, kort na de
interventie (T1) en 3 maanden de interventie (T2).
In dit geval zijn er meerdere onafhankelijke variabele, de interventie (twee niveaus) en tijd (T0,T1, T2,
dus drie niveaus). Als je dit met lineaire regressie doet zou het er zo uitzien:
De meting voorafgaand aan de interventie (T0), kan je het beste als een EXTRA onafhankelijke
variabele in het model stoppen. Want, iemand die voor de interventie al angstig is ui zichzelf zal na
de interventie ook nog steeds wel een beetje angstig zijn, dit heeft dus effect op de afhankelijke
variabele.
, Het lijkt er dus op dat als je van 0 naar 1 gaat, dus van statistische training naar confidence training,
dat de angst toeneemt (B1= 1.529). De p-waarde is 0.078, net niet significant, maar wel in de buurt.
Wat is nu het probleem met deze analyse?
Wat waren de aannames van lineaire regressie ook alweer?
- Afhankelijke variabele moet op zijn minst interval niveau zijn. Soms ook toegepast op
variabelen tussen ordinaal en interval schaal voor angst voor stats zit dat hier wel goed.
- Er is een lineaire relatie tussen Y aan de ene kant en de X variabelen aan de andere kant
kan je checken voor het voorbeeld.
- Voorspelfouten (die heb je altijd), zijn onafhankelijk van elkaar lastig in dit voorbeeld want
in de voorspelfouten kan nog wel eens wat systematiek zitten omdat je steeds dezelfde
personen meet, vooropleiding van de participanten blijft namelijk altijd constant
bijvoorbeeld.
- Voorspelfouten moeten normaal verdeeld zijn kunnen we checken
- Voor elke voorspelde waarde van Y moet de variantie van de error terms hetzelfde zijn.
Snel testen of de error scores van de resultaten op T1 en T2 correleren met elkaar. Kan door de twee
voorspelfouten voor beide tijdstippen even tegen elkaar uit te zetten in een plot. Er lijkt wel een
positieve te zijn. Lage voorspelfouten op T1 hangen samen met negatieve voorspelfouten op T2, en
andersom. De error termen zijn dus gecorreleerd. Hij lijkt zelf met 0,89 te correleren. Dus de
aanname van lineaire regressie is geschonden.