Les 1: Samenvatting
programmeren in R 2025
Leerdoelen:
De student kan werken in een R project.
De student kan code verwerken in een R script en dit van informatieve
comments voorzien.
De student kan R packages gebruiken voor het verwerken van data.
De student kan RDS bestanden inlezen in R.
De student kent de verschillende data structuren in R (vectors, lists en
dataframes/tibbles).
De student kan algemene eigenschappen (bijvoorbeeld het aantal rijen en
kolommen, en de kolomnamen) van de data achterhalen met R.
Samenvatting:
Comments aangeven met #
Packages kunnen library(tidyverse)
gebruiken
Variabelen opslaan als een getallenreeks <- 1:10
RDS bestand saveRDS(getallenreeks, "getallenreeks.rds")
Het eerste argument van de saveRDS functie is
de variabele die je wilt opslaan in een RDS
bestand. Het tweede argument is de naam die je
het RDS bestand wilt geven.
RDS bestand inlezen getallenreeks <-
readRDS("getallenreeks.rds")
getallenreeks
RDS bestanden namen getallenreeks <-
geven readRDS("getallenreeks.rds")
geef informatieve namen, worden scheiden met _
Vectors Om de vector te bepalen gebruik je de functie
typeof
Integer: hele getallen
Double: alle getallen die niet integer zijn
Character: tekst, zoals woorden en zinnen
Logical: waarden die aangeven of iets waar of
niet waar is (TRUE/FALSE)
Dataframe omzetten naar library(tidyverse)
een tibble tibble1 <- as_tibble(dataframe1)
(waarom tibble en geen tibble1
dataframe? – dataframes
hebben een aantal
technische nadelen)
Tibble in een apart window View(tibble1)
openen
Eerste rijen en laatste rijen head(tibble1)
tibble bekijken tail(tibble1)
Kolomnamen bekijken names(tibble1)
Aantal rijen en kolommen dim(tibble1)
L> geeft als antwoord 6 5
eerste getal aantal rijen, tweede getal aantal
kolommen
nrow(tibble1)
ncol(tibble1)
Overzicht krijgen van de str(tibble1)
verschillende kolommen in
, de tibble (hoeveel
kolommen, datatype van
elke kolom, hoeveel rijen,
wat zijn de eerste waarden
van de kolom)
Kolom selecteren gewicht <- tibble1$weight
Gemiddelde berekenen mean(gewicht)
Mediaan berekenen median(gewicht)
Minimum en maximum min(gewicht)
bepalen max(gewicht)
Het minimum, het summary(gewicht)
maximum, het gemiddelde
en de mediaan bepalen. En
het ook het eerste en
derde kwartiel
Standaarddeviatie sd(gewicht)
Hoeveel NA’s een kolom summary(tibble1$cholesterol)
bevat
Door de aanwezigheid van NA waarden is het niet
mogelijk om bijvoorbeeld de mediaan of de mean
te bepalen. De NA waarden zorgen ervoor dat de
uitkomst NA wordt.
Het negeren van NA mean(tibble1$cholesterol, na.rm = TRUE)
waarde in berekeningen door het na.rm=TRUE functie te gebruiken
worden de NA waardes achterwege gelaten
Snelle grafieken maken, Scatterplot – verband
eigenlijk niet nodig plot(tibble1$weight)
plot(tibble1$weight, tibble1$cholesterol)
histogram – hoe variabelen zijn verdeeld
hist(tibble1$cholesterol)
boxplot – verschil bekijken
boxplot(tibble1$cholesterol)
boxplot(tibble1$cholesterol ~
tibble1$treatment)
Les 2:
De student kan tab-separated values (TSV) bestanden inlezen in R.
De student kan verschillende grafieken (scatter plots, histogrammen en
boxplots) maken met het ggplot2 package.
De student kan ggplot2 grafieken voorzien van een duidelijke titel en
informatieve aslabels.
De student kan variabelen omzetten naar een factor om aan te geven dat
het een categorische variabele is.
Samenvatting:
Bepalen of een txt file een TSV file is:
Zit er een tab tussen de kolomnamen, dan is het een TSV file.
TSV file inlezen library(tidyverse)
irisdata <- read_tsv("iris.txt")
irisdata
Decimaal scheidingsteken heights <- read_tsv("heights_komma.txt",
veranderen locale = locale(decimal_mark = ","))
programmeren in R 2025
Leerdoelen:
De student kan werken in een R project.
De student kan code verwerken in een R script en dit van informatieve
comments voorzien.
De student kan R packages gebruiken voor het verwerken van data.
De student kan RDS bestanden inlezen in R.
De student kent de verschillende data structuren in R (vectors, lists en
dataframes/tibbles).
De student kan algemene eigenschappen (bijvoorbeeld het aantal rijen en
kolommen, en de kolomnamen) van de data achterhalen met R.
Samenvatting:
Comments aangeven met #
Packages kunnen library(tidyverse)
gebruiken
Variabelen opslaan als een getallenreeks <- 1:10
RDS bestand saveRDS(getallenreeks, "getallenreeks.rds")
Het eerste argument van de saveRDS functie is
de variabele die je wilt opslaan in een RDS
bestand. Het tweede argument is de naam die je
het RDS bestand wilt geven.
RDS bestand inlezen getallenreeks <-
readRDS("getallenreeks.rds")
getallenreeks
RDS bestanden namen getallenreeks <-
geven readRDS("getallenreeks.rds")
geef informatieve namen, worden scheiden met _
Vectors Om de vector te bepalen gebruik je de functie
typeof
Integer: hele getallen
Double: alle getallen die niet integer zijn
Character: tekst, zoals woorden en zinnen
Logical: waarden die aangeven of iets waar of
niet waar is (TRUE/FALSE)
Dataframe omzetten naar library(tidyverse)
een tibble tibble1 <- as_tibble(dataframe1)
(waarom tibble en geen tibble1
dataframe? – dataframes
hebben een aantal
technische nadelen)
Tibble in een apart window View(tibble1)
openen
Eerste rijen en laatste rijen head(tibble1)
tibble bekijken tail(tibble1)
Kolomnamen bekijken names(tibble1)
Aantal rijen en kolommen dim(tibble1)
L> geeft als antwoord 6 5
eerste getal aantal rijen, tweede getal aantal
kolommen
nrow(tibble1)
ncol(tibble1)
Overzicht krijgen van de str(tibble1)
verschillende kolommen in
, de tibble (hoeveel
kolommen, datatype van
elke kolom, hoeveel rijen,
wat zijn de eerste waarden
van de kolom)
Kolom selecteren gewicht <- tibble1$weight
Gemiddelde berekenen mean(gewicht)
Mediaan berekenen median(gewicht)
Minimum en maximum min(gewicht)
bepalen max(gewicht)
Het minimum, het summary(gewicht)
maximum, het gemiddelde
en de mediaan bepalen. En
het ook het eerste en
derde kwartiel
Standaarddeviatie sd(gewicht)
Hoeveel NA’s een kolom summary(tibble1$cholesterol)
bevat
Door de aanwezigheid van NA waarden is het niet
mogelijk om bijvoorbeeld de mediaan of de mean
te bepalen. De NA waarden zorgen ervoor dat de
uitkomst NA wordt.
Het negeren van NA mean(tibble1$cholesterol, na.rm = TRUE)
waarde in berekeningen door het na.rm=TRUE functie te gebruiken
worden de NA waardes achterwege gelaten
Snelle grafieken maken, Scatterplot – verband
eigenlijk niet nodig plot(tibble1$weight)
plot(tibble1$weight, tibble1$cholesterol)
histogram – hoe variabelen zijn verdeeld
hist(tibble1$cholesterol)
boxplot – verschil bekijken
boxplot(tibble1$cholesterol)
boxplot(tibble1$cholesterol ~
tibble1$treatment)
Les 2:
De student kan tab-separated values (TSV) bestanden inlezen in R.
De student kan verschillende grafieken (scatter plots, histogrammen en
boxplots) maken met het ggplot2 package.
De student kan ggplot2 grafieken voorzien van een duidelijke titel en
informatieve aslabels.
De student kan variabelen omzetten naar een factor om aan te geven dat
het een categorische variabele is.
Samenvatting:
Bepalen of een txt file een TSV file is:
Zit er een tab tussen de kolomnamen, dan is het een TSV file.
TSV file inlezen library(tidyverse)
irisdata <- read_tsv("iris.txt")
irisdata
Decimaal scheidingsteken heights <- read_tsv("heights_komma.txt",
veranderen locale = locale(decimal_mark = ","))