College 1: Introductie
Statistiek gebruiken om relaties in data te vinden (inferentiëel) en data samen te vatten
(beschrijvende)
Beschrijvende statistiek = data beschrijven zonder conclusie te trekken (bv centraliteit
en spreiding; mean& range, visualisatie; barplot)
Inferentiële statistiek = Linken van bevindingen van steekproef aan populatie
Voor parameters gebruik je altijd '=', voor toekenning aan variabele gebruik je altijd
<-
mean() = berekent gemiddelde van lijst van getallen
< - = iets toekennen aan variabele
str () = toont structuur dataset
dim() = toont aantal rijen en kolommen dataset
head() = laat eerste 6 rijen zien
$ = kan enkele kolom van dataset tonen
dat[a,b]
a = rijen
b = kolommen
Boolean operators:
== $ & I !=
Nieuwe kolom:
dat$diff < - dat$english_grade - dat$english_score
Statistiek 1 1
, dat$pass_fail <- "PASS" # new column, initially PASS for everybody
dat[dat$english_grade < 5.5, ]$pass_fail <- "FAIL" # if grade too low, then FAIL
tail(dat[dat$english_grade > 4 & dat$english_grade < 6, 2:9])
Visualisatie in R:
barplot() = hiervoor heb je frequentietabel nodig
(counts < - table(dat$gender))
barplot(counts, col = c("pink", "lightblue"), ylim = c(0, 350), main = "My barplot",
xlab = "Gender", ylab = "Frequency")
segmented barplot:
(counts <- table(dat$gender, dat$study))
barplot(counts, col = c("pink", "lightblue"), legend = c("F", "M"), ylim = c(0, 185))
plot()
boxplot()
hist()
qqnorm() and qqlline()
College 2: Descriptieve statistiek
Hoe groter steekproef, hoe minder minimale verschillen je vindt
Typen variabelen:
Variabele = kolomnaam
Nomniaal = verschillende categorieën, niet geordend (bv geslacht, moedertaal
Ordinaal = er is een ordening, maar niet bekend hoeveel verschil (bv cijfers van een
klas, likert schaal)
Interval = Weet verschil tussen waardes, Schaal zonder echte 0 (bv geboortejaar,
temperature in celsius)
Statistiek 1 2