Standaarddeviatie: het gemiddelde – alle getallen
onafhankelijke groepen van elkaar verschillen op één factor. Dus bijvoorbeeld of het
los. Al die antwoorden kwadrateren en bij elkaar
gemiddelde cijfer van studenten verschilt tussen drie verschillende lesmethodes.
optellen.
Door SS_treatment / SS_totaal te nemen en te Delen door n-1. Neem de wortel
vermenigvuldigen met 100%, krijg je het percentage van
de totale variantie dat wordt verklaard door het effect van Kansdichtheid formule van normale verdeling:
SStotaal: Dit is de totale variatie in de data
SStreatment: Dit meet de variatie tussen de groepen. Het laat zien hoeveel van de
de factor.
totale variatie verklaard kan worden door het feit dat de groepen verschillende
gemiddelden hebben
SSredidual: Dit is de onverklaarde variatie, dus de variatie binnen de groepen. Het laat
zien hoeveel variatie er is binnen elke groep, ondanks de verschillen in
groepsgemiddelden.
F-max toets: Wanneer je een ANOVA gaat uitvoeren
maar je van te voren wilt aantonen dat je variaties
Eindig aftelbare kansruimte (dobbelsteen, munt):
tussen de groepen gelijk zijn, dus homogeen
(omega): totaal mogelijke uitkomsten
Element: mogelijk uitkomst binnen omega
Deelverzameling: Een verzameling A is een
deelverzameling van verzameling B als elke uitkomst in A
ook voorkomt in B.
2n, n is 6 bij een dobbelsteen dus voor een dobbelsteen geldt S2 = variatie dus alsjeblieft doe het niet nog in het
26=64 deelverzamelingen kwadraat.
-Lege verzameling, onmogelijke gebeurtenis: iets wat nooit
kan gebeuren Df: c- aantal groepen
df= aantal groepen -1 -Zekere gebeurtenis: iets wat sowieso altijd gebeurd
Kruskal-Wallis test: Als je wil vergelijken of drie of
k: het aantal groepen (bijv. 3 verschillende lesmethodes) De doorsnede van A en B is de gebeurtenis die
meer onafhankelijke groepen van elkaar verschillen
N: het totaal aantal metingen/data-punten (bijv. 30 leerlingen) bestaat uit die elementen die zowel in A als in B voorkomen. op een bepaalde uitkomst, maar je data voldoet niet
Zoek in de tabel Kritieke waarde voor een f-test voor ANOVA. aan de voorwaarden van een gewone ANOVA
(normale verdeling of gelijke varianties).
De vereniging van A en B is de gebeurtenis die bestaat We kijken nogsteeds naar verschil in mediaan tussen
twee populaties. Je hoeft niet uitrekenen hoe je bij de
uit die elementen die in A of in B (of in beide) voorkomen.
Verschil? -> post-hoc analyse zoals een Turkey-test of Bonferroni-correctie om toetsingsgrootheid komt alleen hoe je de tabel moet
aan te tonen welke groepen er van elkaar verschillen. gebruiken. Je verwerpt je H0 als je toetsingsgrootheid
boven de kritieke waarde ligt, zoals normaal
Wanneer je de kans op een bepaalde gebeurtenis wilt
Two-way ANOVA-analyse: Als je wilt onderzoeken wat het effect is van twee Wanneer een Kruskal-Wallis test een significant
uitrekenen.
onafhankelijke factoren tegelijk op één afhankelijke variabele. Bijvoorbeeld je onderzoekt verschil aangeeft, dus H₀ wordt verworpen. Weet je
hoe studie-methode en geslacht de cijfers (afhankelijke factor) beïnvloeden. A ∪ B : de kans op A en B samen, dit is 1 als A en B de enige
alleen dat er ergens een verschil is tussen de
Let hierbij op interactie tussen de twee treatment. mogelijke opties zijn. Zo kan je bijvoorbeeld als je de kans op
groepen, maar je weet nog niet tussen welke groepen
Stel je voor dat je treatment A een effect heeft van +2 op een uitkomst (bijvoorbeeld een A en de kans op B weet, de kans uitrekenen op het interval
dat zowel in A als in B loopt. Dat is namelijk P(A ∩ B. precies. ->post-hoc analyse
verbetering van 2 punten). Treatment B heeft ook een effect van +3. Als er geen interactie
is, dan zou de combinatie van A én B een effect moeten hebben van +2 + 3 = +5. Maar als
er wél een interactie is, kan de combinatie bijvoorbeeld een effect hebben van: Minder dan
5 (bijvoorbeeld +4), of meer dan 5 (bijvoorbeeld +7). Dit betekent dat de treatments op Mann-Whitney U test. De Mann-Whitney U test wordt ook een Wilcoxon test genoemd. Als je het verschil wilt
elkaar inwerken, waardoor het gecombineerde effect verandert interactie onderzoeken in mediaan tussen twee onafhankelijke groepen, maar e data niet normaal verdeeld is.
Toetsen of medianen significant verschillen
We zoeken de laagste waarde op in de totale data-set en die krijgt rangnummer 1, het is hierbij belangrijk dat je door je
gehele dataset kijkt en hier ranks in doet.
Wanneer je 4 dezelfde waardes hebt dan zal je de rangnummers bij elkaar op moeten tellen en delen door de
hoeveelheid randnummers.
R1: de som van de rangnummers van 1 kolom
U: de toetsingsgrootheid, je kiest tussen u1 en U2 de kleinste waarde voor U. Dus U1=62,5, U2=106,5 U=62,5
n1,n2: Steekproefgrootten
Let op! Je verwerpt je H0 wanneer je toetsingsgrootheid onder je kritieke waarde ligt ipv erboven. H0: er is
geen verschil tussen de medianen
SSₐ = variantie verklaard door factor A
SSB= variatie verklaard door factor B
SSaxB= Meet of het effect van A afhankelijk is van het niveau van B Wilcoxon’s rank paired test: Wanneer je wilt weten of er verschil is tussen twee metingen die aan elkaar gekoppeld
SSres= Variatie binnen de groepen die niet verklaard wordt door A, B of hun interactie zijn, gepaarde data.
SStot = De totale variantie in de data, dus alles plus elkaar 1. Je bepaald het verschil tussen de waarde ochtends en de waarde middags.
2. Dan neem je de absolute waarde van het verschil,
alle minnen worden plus.
a = het aantal categorieën (of niveaus) van treatment A
3. De nullen haal je weg, die doen niet mee.
b = het aantal categorieën (of niveaus) van treatment B
4. Dan ga je alle verschillen ordenen en een rangnummer geven.
n is het aantal herhalingen (replicaties) per combinatie van treatment A en B.
5. Die rangnummer krijgen een min teken als het oorspronkelijke
Met andere woorden: het aantal metingen per cel in het A × B design.
verschil een min getal was.
Stel je toetst 6. Dan tel je alle rangnummers op van de negatieve getallen.
Voorbeeld: Voor de rangnummers die positief zijn tel je ook bij elkaar op.
eenzijdig, met een
a=3 (bijv. 3 soorten lesmethoden) Je krijgt een T- en een T+.
significantie van
b=2(bijv. 2 leeftijdsgroepen)
0,05. Je kijkt in je
En je meet bij elke combinatie van A en B exact 4 keer → dan is n=4
tabel bij 0,10. Maar 7. Neem de kleinste van je twee toetsingsgrootheden.
je zegt wel je waarde Let ook op dat je de 0 waarde niet meetelt dus die waarde die vervalt ook echt daarom heb je nu n=8 inplaatsvan n=9.
is significant voor Let op! Je verwerpt je H0 wanneer je toetsingsgrootheid onder je kritieke waarde ligt ipv erboven. H0: de
alfa=0.05.
Omdat je waarde groter dan alfa=0,05 is. Is er minder dan 5% kans op type I fout. Dus p<0,05
met een
SSa= SSbetween, A significantie van P(A∣B): Voorwaardelijke kans. Wat is de kans op A gegeven dat B is
SSresid= SSerror of SSwithin 0,01. Je kijkt in je opgetreden. Dus bijvoorbeeld wat is de kans op een even getal (A) als je weet
Je hebt drie hypotheses tabel bij 0,02. Maar dat de getallen 1,2,3,4 (B) zijn. Normale verdeling N (μ, σ)
je zegt wel je waarde continue:
Uniforme verdeling (dicreet): Wanneer alle waardes even waarschijnlijk Wanneer je data normaal verdeeld is.
zijn en je waardes liggen binnen een bepaald interval. Dit geldt voor zowel
Discreet als Continue
a en b: interval tussen twee getallen die je mogelijkheden zijn. Bijv 3 en 7,
opties: 3,4,5,6,7 Algemene productregel: De kans dat A en B allebei gebeuren is: De kans dat B gebeurt,
n=b-a: aantal opties, dus 7-3=4 opties en de kans dat A gebeurt, gegeven dat B al is gebeurd. En andersom. Integraal! De totale kans moet
Speciale productregel: Als A en B onafhankelijk zijn, dan maakt het niet uit of B is weer 1 zijn.
gebeurd
-Optellen van kansvariabelen geeft een
Uniforme verdeling (continue): Integraal van f(x)=1, dus opp onder
normale verdeling
f(x)=1 Kans op een exacte waarde is 0
Regel van Bayes -Vermenigvuldiging van onafhankelijke
variabelen geeft een Log-normale
verdeling
Model II regressie: Wanneer je een voorspellende relatie wil onderzoeken
Gebruik je om van een uitkomst terug te gaan naar de Telbare kansruimte (hele getallen):
tussen een afhankelijke variabele X en een afhankelijke variabele Y.
mogelijke reden daarvoor. Dus je wilt weten wat de kans is dat iets een bepaalde oorzaak is
-Beide variabelen zijn gemeten in vergelijkbare eenheden
van het resultaat. kansfunctie (eindig-oneindig)
-Meetfouten zitten in zowel x als y
P(A∣B): kans op oorzaak A (ziek) gegeven resultaat B (positief).
P(B∣A): kans op resultaat B (positief) gegeven oorzaak A (ziek). Overaftelbare
-B1, PAR: richtingscoëfficiënt
-b1 is de richtingscoëfficiënt die je zou vinden met model I regressie, De CDF geeft de kans dat de toeval variabele X een waarde aanneemt kleiner dan of gelijk kansruimte(bijv komma getallen of
-r is de Pearson correlatiecoëfficiënt tussen x en y aan een bepaald getal k: oneindig): kansdichtheidsfunctie de
r= wortel b1*b2 F(k)=P(X≤k)-> F(3)= P(X≤3)= F(1) + F(2) + F(3) kans op een exact getal is 0
Specifieke waarde: P(X=k)=F(k)−F(k−1) Interval: -Populatiemodus: de waarde die het
P(1<X≤2)=F(2)−F(1) meest voorkomt in de populatie