OMICS SAMENVATTING
HOORCOLLEGE 1- Introduction To Next Generation Sequencing (NGS) - 2/4/2025
Aims
- Understand general principles of NGS
- Know and understand applications of NGS
→ NGS: illumina sequencing as example
- Understanding NGS approaches
→ Single-end vs paired-end
→ Sample multiplexing
→ Unified molecular identifiers (UMIs)
→ DNA capture methods
- Understand NGS related issues
→ Reads and read lengths
→ Coverage
→ Sequencing errors
Nummers
- Number of nucleotides that make up human genome: 3,000,000,000
- Number of human genes: 20,000
→ Average human gene length: 10-15kb
→ Enormous variation: ~200 bases ~2500kb
- 70 kg ‘reference man’
→ Human cells: 30*10^12 (30 trillion)
→ Bacterial cell: 38*10^12 (40 trillion)
- Mass of DNA in 70kg human: 0.75*30*10^12 = 22.5*10^12 cells with nucleus →
225 g DNA/70kg human
→ Erythrocytes do not have nucleus
Sanger sequencing:
- Uses labeled dideoxynnucleotides (ddNTPs) for ‘chain termination’, generating
fragments of different lengts ending in ddATP, ddGTP, ddCTP or ddTP
- Can produce DNA fragments 700-900bp long (good), but it’s ‘slow’
WERKING SS: er wordt 1 specifiek stukje DNA gesequenct (= 1 molecuul), daar
wordt een enkele streng van gemaakt. Aan dit enkel strengs stuk DNA wordt
een primer gehangen wat met DNA polymerase kan binden → start generatie
tweede streng. Er zijn 4 buisjes; A, T, C en G; per buisje zijn er moleculen van
verschillende lengte. Deze moleculen worden op een gel door verschil in
massa van elkaar gescheiden.
Next generation sequencing (NGS)
VERSCHIL Sanger sequencing en NGS:
- SS: 1 DNA molecuul wordt per keer gesequenct tot 1 stuk sequentie
- NGS: meerdere DNA moleculen kunnen tegelijkertijd worden gesequenct tot
meerdere stukken sequentie = VOORDEEL NGS (sneller + goedkoper)
1
,Voorbeeld NGS: Illumina sequencing
A. Library preparation
B. Cluster Amplification
C. Sequencing
D. Alignment & Data Analysis
A.Library preparation: het DNA van de patient wordt gefragmenteert in
kleine stukjes DNA. Vervolgens worden er adapters toegevoegd aan het
DNA beide kanten van het DNA fragment dit wordt geligeerd en de
sequencing library is ontstaan.
B.Cluster amplificatie: de adapters zijn complementair aan de probe
op de ‘flow cell’. Dit gebeurt voor alle DNA moleculen in de sample →
deze gebonden DNA streng wordt geamplificeerd. Amplificatie proces:
1 DNA streng waarbij de adapter (roze) gebonden is aan de probe op de
flow cel en vervolgens buigt de DNA sequentie en bindt aan een
complementaire probe. In de adapter zit een stukje sequentie die door
een primer herkend wordt → door de primer wordt van het enkel
strengs DNA molecuul een dubbel strengs DNA molecuul gemaakt.
Zodra dsDNA is gemaakt laten de strengen los en worden ze
gescheiden in een forward strand en in een reverse strand.
→ Clusters= op een bepaalde plek heb je identieke kopieën van een stuk DNA fragment
C.Sequencing: er wordt een licht signaal gemeten door een fluorescent label aan een
nucleotide te hangen en dit wordt afgelezen. Er bindt ook een terminator aan de
nucleotide, zodat de binding even geblokkeerd is en er geen nieuwe nucleotide kan
binden. Er wordt door een laser een foto gemaakt; voor alle clusters zijn er 1 nucleotide
uitgelezen → DUS: voor 1 positie voor 1 nucleotide
Sequencing strategies: VERSCHILLEN
NGS (illuminatie)
- Stukjes sequentie die je kan aflezen zijn redelijk klein (150bp)
- Goedkoper
SS
- Accurater
- Duurder
2
,D.Alignment & Data Analysis
De gesequencte data worden gealignt met een referentie genoom.
Sequence alignment: de reads worden vergeleken met een plek op de
referentie waar de read exact mee overeenkomt of goed op past.
Coverage (sequence depth): de hoeveelheid reads die overeenkomen
met het referentie genoom → coverage representateerd ‘mountains’
Sequence dept hand breath of coverage
Coverage (sequence depth) = L*N/G
- L = Length of read
- N = number of reads
- G = size of genome
Structural elements of an illumina sequencing
library
Adaptors binden aan beide uiteindes van het DNA
framgment. De sequenties van de adaptors zijn
complementair aan de sequenties van de probes.
Voor elk individu is er een specifieke index (i5/ i7) →
hierdoor kan het stukje DNA fragment terug
relateren aan het individu = sample multiplexing =
meten van sequenties van meerdere individuen
tegelijkertijd op een flow cel.
sequencing errors: een sequencing machine maakt fouten → als er een hoge coverage
is (=veel reads die overeenkomen met referentie genoom) dan kan er goed onderscheid
gemaakt worden tussen een sequencing error van de machine en een mutatie. Bij een
lage coverage is dit lastig, omdat er niet veel reads zijn om de fout mee te vergelijken.
Unified molecular identifiers (UMIs)???
Exome sequencing: goedkoper
DOEL: het achterhalen van een fout in et DNA van genetische ziekte
Toepassing exome sequencing: Mendelian disease
- Genetische ziekte (zeldzaam)
→ Vaak mutaties die door de novo events ontstaan
- Single gene disorder
- Inheritenace: autosomal/ sex-linked, domiinant/ recessive
Exome sequencing kan een idee geven over welke genen de ziekte veroorzaken → welke
→ Wanneer exome sequencing experiment? => als het mutante gen in het coderende
deel (exon) van het DNA zit.
Exome: the exome is the part of the genome formed by exons
3
, Gene variant
- Single Nucleotide Polymorphism (SNP): point mutation that has persisted in the
population
- Allele: version of a gene at a given locus
- SNP/ mutation = gene variant = gene with different allele
- InDel: small insertion or deletion
STAPPEN WERKING exome sequencing (zeldzame
ziekte)
- Patienten verzamelen
- Exonen uit het DNA verzamelen
- Exon sequencing
- Sequence vergelijken met referentie sequence
- Informatie die je nodig hebt zijn de verschillen
tussen die 2 sequenties = filtering
- Door validatie vind je de patiënt met de
sequence die het meest overeenkomt en
waarmee een diagnose gemaakt kan worden = report
Hoe sequence je ALLEEN exonen → hoe selecteer je ALLEEN exonen?
DNA capture methods
2 technieken:
- Probes; deze zijn complementair aan de exonen
- DNA → DNA fragmentati
- Capture fragments by hybridization; alle stukjes DNA fragment die overlappen
met een exon kunnen binden aan een probe. Alle stukjes DNA die aan een probe
binden worden geselecteerd.
- Amplificatie
- Sequencing
Hoe onderscheid je een sequentie fout van de machine van een mutatie fout in het
DNA?
1. Kijken naar hoe vaak een mutatie voorkomt op een bepaalde plek bij alle
patiënten die meegenomen zijn in het onderzoek
2. Kijken naar de mutaties die in een gegeven patiënt voorkomen
→ Combineer deze filter stappen te combineren kan je de ziekte veroorzakende mutatie
kan vinden
In stappen:
1. List of differences: patient(s) compared to reference
2. List of SNPs shared between patients
→ Kijken naar de mutaties IN een patient
3. List of synonieme SNPs → synonieme SNPs veranderen het aminozuur/ eiwit
niet, dus de kans dat een synonyme SNP ziekte door mutatie veroorzaakt is klein
4
HOORCOLLEGE 1- Introduction To Next Generation Sequencing (NGS) - 2/4/2025
Aims
- Understand general principles of NGS
- Know and understand applications of NGS
→ NGS: illumina sequencing as example
- Understanding NGS approaches
→ Single-end vs paired-end
→ Sample multiplexing
→ Unified molecular identifiers (UMIs)
→ DNA capture methods
- Understand NGS related issues
→ Reads and read lengths
→ Coverage
→ Sequencing errors
Nummers
- Number of nucleotides that make up human genome: 3,000,000,000
- Number of human genes: 20,000
→ Average human gene length: 10-15kb
→ Enormous variation: ~200 bases ~2500kb
- 70 kg ‘reference man’
→ Human cells: 30*10^12 (30 trillion)
→ Bacterial cell: 38*10^12 (40 trillion)
- Mass of DNA in 70kg human: 0.75*30*10^12 = 22.5*10^12 cells with nucleus →
225 g DNA/70kg human
→ Erythrocytes do not have nucleus
Sanger sequencing:
- Uses labeled dideoxynnucleotides (ddNTPs) for ‘chain termination’, generating
fragments of different lengts ending in ddATP, ddGTP, ddCTP or ddTP
- Can produce DNA fragments 700-900bp long (good), but it’s ‘slow’
WERKING SS: er wordt 1 specifiek stukje DNA gesequenct (= 1 molecuul), daar
wordt een enkele streng van gemaakt. Aan dit enkel strengs stuk DNA wordt
een primer gehangen wat met DNA polymerase kan binden → start generatie
tweede streng. Er zijn 4 buisjes; A, T, C en G; per buisje zijn er moleculen van
verschillende lengte. Deze moleculen worden op een gel door verschil in
massa van elkaar gescheiden.
Next generation sequencing (NGS)
VERSCHIL Sanger sequencing en NGS:
- SS: 1 DNA molecuul wordt per keer gesequenct tot 1 stuk sequentie
- NGS: meerdere DNA moleculen kunnen tegelijkertijd worden gesequenct tot
meerdere stukken sequentie = VOORDEEL NGS (sneller + goedkoper)
1
,Voorbeeld NGS: Illumina sequencing
A. Library preparation
B. Cluster Amplification
C. Sequencing
D. Alignment & Data Analysis
A.Library preparation: het DNA van de patient wordt gefragmenteert in
kleine stukjes DNA. Vervolgens worden er adapters toegevoegd aan het
DNA beide kanten van het DNA fragment dit wordt geligeerd en de
sequencing library is ontstaan.
B.Cluster amplificatie: de adapters zijn complementair aan de probe
op de ‘flow cell’. Dit gebeurt voor alle DNA moleculen in de sample →
deze gebonden DNA streng wordt geamplificeerd. Amplificatie proces:
1 DNA streng waarbij de adapter (roze) gebonden is aan de probe op de
flow cel en vervolgens buigt de DNA sequentie en bindt aan een
complementaire probe. In de adapter zit een stukje sequentie die door
een primer herkend wordt → door de primer wordt van het enkel
strengs DNA molecuul een dubbel strengs DNA molecuul gemaakt.
Zodra dsDNA is gemaakt laten de strengen los en worden ze
gescheiden in een forward strand en in een reverse strand.
→ Clusters= op een bepaalde plek heb je identieke kopieën van een stuk DNA fragment
C.Sequencing: er wordt een licht signaal gemeten door een fluorescent label aan een
nucleotide te hangen en dit wordt afgelezen. Er bindt ook een terminator aan de
nucleotide, zodat de binding even geblokkeerd is en er geen nieuwe nucleotide kan
binden. Er wordt door een laser een foto gemaakt; voor alle clusters zijn er 1 nucleotide
uitgelezen → DUS: voor 1 positie voor 1 nucleotide
Sequencing strategies: VERSCHILLEN
NGS (illuminatie)
- Stukjes sequentie die je kan aflezen zijn redelijk klein (150bp)
- Goedkoper
SS
- Accurater
- Duurder
2
,D.Alignment & Data Analysis
De gesequencte data worden gealignt met een referentie genoom.
Sequence alignment: de reads worden vergeleken met een plek op de
referentie waar de read exact mee overeenkomt of goed op past.
Coverage (sequence depth): de hoeveelheid reads die overeenkomen
met het referentie genoom → coverage representateerd ‘mountains’
Sequence dept hand breath of coverage
Coverage (sequence depth) = L*N/G
- L = Length of read
- N = number of reads
- G = size of genome
Structural elements of an illumina sequencing
library
Adaptors binden aan beide uiteindes van het DNA
framgment. De sequenties van de adaptors zijn
complementair aan de sequenties van de probes.
Voor elk individu is er een specifieke index (i5/ i7) →
hierdoor kan het stukje DNA fragment terug
relateren aan het individu = sample multiplexing =
meten van sequenties van meerdere individuen
tegelijkertijd op een flow cel.
sequencing errors: een sequencing machine maakt fouten → als er een hoge coverage
is (=veel reads die overeenkomen met referentie genoom) dan kan er goed onderscheid
gemaakt worden tussen een sequencing error van de machine en een mutatie. Bij een
lage coverage is dit lastig, omdat er niet veel reads zijn om de fout mee te vergelijken.
Unified molecular identifiers (UMIs)???
Exome sequencing: goedkoper
DOEL: het achterhalen van een fout in et DNA van genetische ziekte
Toepassing exome sequencing: Mendelian disease
- Genetische ziekte (zeldzaam)
→ Vaak mutaties die door de novo events ontstaan
- Single gene disorder
- Inheritenace: autosomal/ sex-linked, domiinant/ recessive
Exome sequencing kan een idee geven over welke genen de ziekte veroorzaken → welke
→ Wanneer exome sequencing experiment? => als het mutante gen in het coderende
deel (exon) van het DNA zit.
Exome: the exome is the part of the genome formed by exons
3
, Gene variant
- Single Nucleotide Polymorphism (SNP): point mutation that has persisted in the
population
- Allele: version of a gene at a given locus
- SNP/ mutation = gene variant = gene with different allele
- InDel: small insertion or deletion
STAPPEN WERKING exome sequencing (zeldzame
ziekte)
- Patienten verzamelen
- Exonen uit het DNA verzamelen
- Exon sequencing
- Sequence vergelijken met referentie sequence
- Informatie die je nodig hebt zijn de verschillen
tussen die 2 sequenties = filtering
- Door validatie vind je de patiënt met de
sequence die het meest overeenkomt en
waarmee een diagnose gemaakt kan worden = report
Hoe sequence je ALLEEN exonen → hoe selecteer je ALLEEN exonen?
DNA capture methods
2 technieken:
- Probes; deze zijn complementair aan de exonen
- DNA → DNA fragmentati
- Capture fragments by hybridization; alle stukjes DNA fragment die overlappen
met een exon kunnen binden aan een probe. Alle stukjes DNA die aan een probe
binden worden geselecteerd.
- Amplificatie
- Sequencing
Hoe onderscheid je een sequentie fout van de machine van een mutatie fout in het
DNA?
1. Kijken naar hoe vaak een mutatie voorkomt op een bepaalde plek bij alle
patiënten die meegenomen zijn in het onderzoek
2. Kijken naar de mutaties die in een gegeven patiënt voorkomen
→ Combineer deze filter stappen te combineren kan je de ziekte veroorzakende mutatie
kan vinden
In stappen:
1. List of differences: patient(s) compared to reference
2. List of SNPs shared between patients
→ Kijken naar de mutaties IN een patient
3. List of synonieme SNPs → synonieme SNPs veranderen het aminozuur/ eiwit
niet, dus de kans dat een synonyme SNP ziekte door mutatie veroorzaakt is klein
4