OMICS DEEL 2 SAMENVATTING
HOORCOLLEGE 1 – DATA ANALYSIS AND EXPERIMENTAL DESIGN - 06/05/2025
Doel:
- Nadenken over een data analyse pipline
- 3 belangrijkste dingen in experimental design: Randomization, Blocking,
Replication
- Verschillende typen experimenten; verschillen tussen parallel design en
repeated measures design
- Data matrix
- Correcties van samples (sample normalisatie)
Metabolomics pipeline
→ Biological question
→ Experimental design
→ Data acquisition: data krijgen
→ Data pre-processing
→ Metabolite identification
→ Statistical Data analysis
→ Biological interpretation
Experimental design en data collectie – STAPPEN
1. Stel een biologische vraag
→ Wat is mijn doel van het experiment?
→ Toets het experiment met een statistische toets
2. Design factor (controlled)/ observational factor (controlled)
- Different treatment levels/ Select from predefined groups
→ Je hebt twee groepen waar je naar kijkt die je vergelijkt
3. Identify noise factors (cofounding)
→ Externe factoren die invloed op het experiment kunnen hebben
4. Design the experiment
5. Execute the experiment
Experimental design – type vragen
1. Detectie van responsive features onder controle van experimentele condities:
starten met een homogene groep en deze een pil geven, hierdoor weet je dat het
verschil wat je meet door de pil komt (= factoriele studie)
2. Detectie van biomarkers: verschillen tussen zieke mensen en gezonde mensen
(= observationele studie)
3. Identificatie van metabolieten en genen: kijken naar hoe bepaalde metabolieten
onderling samenwerken en hoe metabolieten en genen gezamenlijk veranderen
Noise factoren: factoren die je metingen kunnen verstoren
→ Temperatuur, tijd (zomer/ winter), geslacht, leeftijd
Sommige noise factoren kunnen tijdens het experiment constant gehouden worden,
maar bij factoren die niet constant gehouden kunnen worden kan je deze 3 dingen doen:
- Randomiseren: op een random manier kies je wie welke treatment krijgt
1
, - Blokkeren: niet alle experimenten op 1 dag doen → het verschil tussen beide
dagen is niet relevant voor de conclusie
- Herhalen: betrouwbaarheid verbeteren door meer mensen te nemen voor het
experiment of een bepaald sample vaker meten
1. Experimental design: Randomization
Randomiseren verminderd de invloed van oninteressante mogelijke factoren
- Randomiseren van individuen in een groep: treatment, controle
- Randomiseren over tijd (bepalen dat tijd geen effect heeft op het experiment)
- Randomiseren van samples in metingen: afhankelijk van wanneer je meet
kunnen de samples verstoord worden (als je eerst controle samples meet wijken
deze metingen af van de treatment samples) → door random de samples te
meten bepaal je of dit een effect heeft
2. Experimental design: Blocking
Maak blocks of experimenten als:
- Niet alle experimenten op 1 dag gedaan kunnen worden
- Een bepaald deel van de populatie in de studie een andere waardes gaan krijgen
dan een ander deel van de populatie
Met blocking bepaal je van tevoren wat voor effect het gaat zijn → als er verschil is
gevonden in beide ‘blokken’ dan bepaal je van te voren dat dit verschil NIET RELEVANT
is en hier corrigeer je voor.
Fix over blocks, randomize within blocks
Blocking/ randomization
Fix # case/ controls over blocks/ randomize within blocks → Ignore day effect
Als je een verschil meet in blok dag 1 en blok dag 2 en
dit verschil NIET weg corrigeert dan kan je GEEN
onderscheid maken tussen de waardes van beide
dagen (= geen onderscheid tussen blauwe en rode
stippen).
Als je het verschil tussen blok dag 1 en blok dag 2
WEL van tevoren corrigeert kan je WEL onderscheid
maken tussen de waardes → blauwe stippen liggen
hoger dan rode stippen
Voorbeeld – high blood sugar study
Je verwacht hogere waarde bij de mannen dan bij de vrouwen, dus
je bepaalt dat het verschil wat je bij beide meet niet relevant is dus
hier corrigeer je voor (= niveaus gelijk maken) en nu kan je binnen
de vrouwen en binnen de mannen groep naar de verschillen tussen
beide pillen kijken
2
, 3. Experimental design: Replication
Replication: het herhalen van metingen om biologische variatie en analytische variatie
te verminderen
- Het herhalen van metingen
- Meer metingen doen
- De groeps grootte groter maken
Het gemiddelde is beter bepaald als er meer metingen worden gedaan
→ Hoe meer metingen je doet, hoe beter de fouten die je hebt zichtbaar worden
Biologische data collectie
Repeatability (herhaalbaarheid): mate van gelijkheid tussen metingen die zijn
uitgevoerd op dezelfde steekproef, op dezelfde locatie, door dezelfde mensen
→ Mate van variatie waarbij zoveel mogelijk GELIJK is = herhaalbaarheid
Reproducibility (reproduceerbaarheid): mate van gelijkheid tussen metingen die zijn
uitgevoerd op replicaties van steekproeven, op verschillende locaties, door
verschillende mensen
→ Mate van variatie waarbij zoveel mogelijk VERSCHILLEND is = reproduceerbaarheid
Analytische variatie (in het lab):
- Herhaalbaarheid, reproduceerbaarheid
- Bias (systemische afwijking van de werkelijke waarde)
Biologische variatie (variatie tussen proefpersonen):
- Variatie tussen individuen in dezelfde groep: afwijkingen en effectgrootte
- Binnen individuen, tussen biologische experimenten
Hoeveel individuelen per groep voor een studie?
Statistische power: hoe vaak meet je het verschil tussen de groepen
Hoe kan je de power verbeteren/ vergroten?
- Effect vergroten (= effect van vb pil vergroten of meer van een pil geven)
- Verbeteren meetmethode
- Meer mensen nemen voor experiment
Typen designs
Parallel design: beide groepen worden gemeten op hetzelfde tijdstip
→ VOORDEEL: geen probleem met tijd, omdat iedereen in zelfde periode wordt
gemeten
→ Je gebruikt een parallel design als de variatie tussen individuen erg klein is
Repeated measures design: elk individu wat meedoet krijgt meerdere treatments (vb
beide pillen), dus hetzelfde individu doet meerdere metingen
→ Je gebruikt een repeated measures design als de variatie tussen individuen groot is;
je kan de variatie per individu hier corrigeren
→ Volgorde metingen: nulmeting → placebo → nulmeting → treatment
3
, Parallel vs repeated mesures design
Het effect is gelijk, maar de ‘noise’ is verschillend, omdat de individuele variatie tussen
de groepen NIET is gecorrigeerd
Data analysis pipeline
TENTAMEN: keywords snappen + voorbeeld erbij kunnen geven
1. Experimental design and data collection
2. Data preprocessing and quality control
3. Data analysis
4. Biological interpretation
1. Experimental design and data collection - KEYWORDS
- Experimental design
- Repeated measures – parallel
- Measurement design
- Reproducibility
- Analytical/ biological variability
- Statistical power
2. Data preprocessing and quality control
Multivariate data matrix
Disturbance of a whole sample
- Amount of sample is different
- Some samples are more diluted than others
- Order of measuring affects measurement
4
HOORCOLLEGE 1 – DATA ANALYSIS AND EXPERIMENTAL DESIGN - 06/05/2025
Doel:
- Nadenken over een data analyse pipline
- 3 belangrijkste dingen in experimental design: Randomization, Blocking,
Replication
- Verschillende typen experimenten; verschillen tussen parallel design en
repeated measures design
- Data matrix
- Correcties van samples (sample normalisatie)
Metabolomics pipeline
→ Biological question
→ Experimental design
→ Data acquisition: data krijgen
→ Data pre-processing
→ Metabolite identification
→ Statistical Data analysis
→ Biological interpretation
Experimental design en data collectie – STAPPEN
1. Stel een biologische vraag
→ Wat is mijn doel van het experiment?
→ Toets het experiment met een statistische toets
2. Design factor (controlled)/ observational factor (controlled)
- Different treatment levels/ Select from predefined groups
→ Je hebt twee groepen waar je naar kijkt die je vergelijkt
3. Identify noise factors (cofounding)
→ Externe factoren die invloed op het experiment kunnen hebben
4. Design the experiment
5. Execute the experiment
Experimental design – type vragen
1. Detectie van responsive features onder controle van experimentele condities:
starten met een homogene groep en deze een pil geven, hierdoor weet je dat het
verschil wat je meet door de pil komt (= factoriele studie)
2. Detectie van biomarkers: verschillen tussen zieke mensen en gezonde mensen
(= observationele studie)
3. Identificatie van metabolieten en genen: kijken naar hoe bepaalde metabolieten
onderling samenwerken en hoe metabolieten en genen gezamenlijk veranderen
Noise factoren: factoren die je metingen kunnen verstoren
→ Temperatuur, tijd (zomer/ winter), geslacht, leeftijd
Sommige noise factoren kunnen tijdens het experiment constant gehouden worden,
maar bij factoren die niet constant gehouden kunnen worden kan je deze 3 dingen doen:
- Randomiseren: op een random manier kies je wie welke treatment krijgt
1
, - Blokkeren: niet alle experimenten op 1 dag doen → het verschil tussen beide
dagen is niet relevant voor de conclusie
- Herhalen: betrouwbaarheid verbeteren door meer mensen te nemen voor het
experiment of een bepaald sample vaker meten
1. Experimental design: Randomization
Randomiseren verminderd de invloed van oninteressante mogelijke factoren
- Randomiseren van individuen in een groep: treatment, controle
- Randomiseren over tijd (bepalen dat tijd geen effect heeft op het experiment)
- Randomiseren van samples in metingen: afhankelijk van wanneer je meet
kunnen de samples verstoord worden (als je eerst controle samples meet wijken
deze metingen af van de treatment samples) → door random de samples te
meten bepaal je of dit een effect heeft
2. Experimental design: Blocking
Maak blocks of experimenten als:
- Niet alle experimenten op 1 dag gedaan kunnen worden
- Een bepaald deel van de populatie in de studie een andere waardes gaan krijgen
dan een ander deel van de populatie
Met blocking bepaal je van tevoren wat voor effect het gaat zijn → als er verschil is
gevonden in beide ‘blokken’ dan bepaal je van te voren dat dit verschil NIET RELEVANT
is en hier corrigeer je voor.
Fix over blocks, randomize within blocks
Blocking/ randomization
Fix # case/ controls over blocks/ randomize within blocks → Ignore day effect
Als je een verschil meet in blok dag 1 en blok dag 2 en
dit verschil NIET weg corrigeert dan kan je GEEN
onderscheid maken tussen de waardes van beide
dagen (= geen onderscheid tussen blauwe en rode
stippen).
Als je het verschil tussen blok dag 1 en blok dag 2
WEL van tevoren corrigeert kan je WEL onderscheid
maken tussen de waardes → blauwe stippen liggen
hoger dan rode stippen
Voorbeeld – high blood sugar study
Je verwacht hogere waarde bij de mannen dan bij de vrouwen, dus
je bepaalt dat het verschil wat je bij beide meet niet relevant is dus
hier corrigeer je voor (= niveaus gelijk maken) en nu kan je binnen
de vrouwen en binnen de mannen groep naar de verschillen tussen
beide pillen kijken
2
, 3. Experimental design: Replication
Replication: het herhalen van metingen om biologische variatie en analytische variatie
te verminderen
- Het herhalen van metingen
- Meer metingen doen
- De groeps grootte groter maken
Het gemiddelde is beter bepaald als er meer metingen worden gedaan
→ Hoe meer metingen je doet, hoe beter de fouten die je hebt zichtbaar worden
Biologische data collectie
Repeatability (herhaalbaarheid): mate van gelijkheid tussen metingen die zijn
uitgevoerd op dezelfde steekproef, op dezelfde locatie, door dezelfde mensen
→ Mate van variatie waarbij zoveel mogelijk GELIJK is = herhaalbaarheid
Reproducibility (reproduceerbaarheid): mate van gelijkheid tussen metingen die zijn
uitgevoerd op replicaties van steekproeven, op verschillende locaties, door
verschillende mensen
→ Mate van variatie waarbij zoveel mogelijk VERSCHILLEND is = reproduceerbaarheid
Analytische variatie (in het lab):
- Herhaalbaarheid, reproduceerbaarheid
- Bias (systemische afwijking van de werkelijke waarde)
Biologische variatie (variatie tussen proefpersonen):
- Variatie tussen individuen in dezelfde groep: afwijkingen en effectgrootte
- Binnen individuen, tussen biologische experimenten
Hoeveel individuelen per groep voor een studie?
Statistische power: hoe vaak meet je het verschil tussen de groepen
Hoe kan je de power verbeteren/ vergroten?
- Effect vergroten (= effect van vb pil vergroten of meer van een pil geven)
- Verbeteren meetmethode
- Meer mensen nemen voor experiment
Typen designs
Parallel design: beide groepen worden gemeten op hetzelfde tijdstip
→ VOORDEEL: geen probleem met tijd, omdat iedereen in zelfde periode wordt
gemeten
→ Je gebruikt een parallel design als de variatie tussen individuen erg klein is
Repeated measures design: elk individu wat meedoet krijgt meerdere treatments (vb
beide pillen), dus hetzelfde individu doet meerdere metingen
→ Je gebruikt een repeated measures design als de variatie tussen individuen groot is;
je kan de variatie per individu hier corrigeren
→ Volgorde metingen: nulmeting → placebo → nulmeting → treatment
3
, Parallel vs repeated mesures design
Het effect is gelijk, maar de ‘noise’ is verschillend, omdat de individuele variatie tussen
de groepen NIET is gecorrigeerd
Data analysis pipeline
TENTAMEN: keywords snappen + voorbeeld erbij kunnen geven
1. Experimental design and data collection
2. Data preprocessing and quality control
3. Data analysis
4. Biological interpretation
1. Experimental design and data collection - KEYWORDS
- Experimental design
- Repeated measures – parallel
- Measurement design
- Reproducibility
- Analytical/ biological variability
- Statistical power
2. Data preprocessing and quality control
Multivariate data matrix
Disturbance of a whole sample
- Amount of sample is different
- Some samples are more diluted than others
- Order of measuring affects measurement
4