Bio-informatica sensu lato = studie van informatieprocessen in biotische systemen. Bio-informatica sensu stricto =
gebruik maken computationale van methoden om biologische data te analyseren
Recap: -omics
Type -omics Beschrijving
Genomics Sequencen alle DNA van één organisme
Transcriptomics Sequencen alle mRNA in één organisme, weefsel of cel
Proteomics Sequencen van alle eiwitten in één organisme, weefsel of cel
Metagenomics Sequencen van DNA van alle organismen in één sample
Metatranscriptomics Sequencen van mRNA van alle organismen in één sample
Metaproteomics Sequencen van eiwitten van alle organismen in één sample
Biologie achter omics-revolutie:
Probleem in wetenschap: biases tegenover menselijke ziekte, menselijk voedsel en de mens zelf. Gevolg: biases in
algemene begrip van biologie en bias in databases. Oplossing: omics.
Bio-informatica en data-gebruik:
• Top down = vraag eerst → dataset selecteren voor antwoord
• Bottom up = dataset eerst → biologische hypothese ondersteunen
Vraag: Welke van deze methoden hoort niet thuis bij de rest?
a. Metagenomics
b. Metabolomics
c. Metaproteomics
d. Metatranscriptomics
Antwoord: Metabolomics is geen meta-omnics techniek, maar een techniek om alle metabolieten in een cel te
analyseren.
Mutaties
• Nucleotiode substituties:
o Replicatiefouten
o Fysieke of chemische reactie
• Inserties of deleties (indels) :
o Ongelijke crossing-over tijdens meiose
o Replicatie-slip
• Inversies of herschikkingen
• Duplicaties:
o Gedeeltelijk of geheel gen
o Gedeeltelijk (polysomie) of geheel (aneuploïde, polysomie) chromosoom
o Gehele genoom (polypoïde)
• Horizontale gentransfer (HGT) :
1|Page
, o Transfer tussen individuen van dezelfde generatie
Overeenkomst en relatie
Fenotypische overeenkomst ≠ genotypische relatie. Sequence alignment = manier om sequenties van DNA, RNA of
eiwit te rangschikken om gebieden van gelijkenis te identificeren die een gevolg kunnen zijn van functionele,
structurele of evolutionaire relaties tussen de sequenties.
Begrip Definitie
Homology Eigenschap van twee sequences die een gedeelde voorouder hebben (absoluut: wél of níet familie)
Identity Percentage identieke residuen in een alignment (voor aminozuren of nucleotiden)
Similarity Percentage aminozuurresiduen (niet DNA) in een alignment met een positieve substitutiescore
(aangegeven met + / positives)
Similarity signal in aminozuren
Similarity signal voor evolutionaire relatie of functie van aminozuur in het eiwit.
• Grootte
• Lading
• Hydrofobiciteit
• Voorkeur voor eiwitvouwing
Uitzondering: low-complexity regio’s = regio’s met afwijkende samenstelling die simpele sequentieherhalingen
bevatten en snel evolueren (bv: microsatellite regions).
• Low-complexity regio’s in DNA → oorzaak en gevolg van recombatiefouten
• Low-complexity regio’s in eiwitten → mogelijk functioneel
Vraag: Wat is het percentage identieke aminozuren in dit 20aa alignment?
Antwoord: In een BLAST alignment zijn identieke aminozuren aangetoond met een letter tussen de sequenties,
dus:12/20 = 60%.
Vraag: Wat is het percentage positives in dit 20aa alignment?
Antwoord: In een BLAST alignment zijn identieke aminozuren aangetoond met een letter en similar aminozuren
aangetoond met een + tussen de sequenties, dus:14/20 = 70%. Positives = identical + similar.
2|Page
,DNA-substitutie matrix
• Identity-matrix (links) → DNA sequence alignments scoren (links)
• Substitutie-matrix (rechts) → similarity kwantificeren met score voor matches
in sequence alignment en straf voor mismatch in sequence alignment
Transititions vindt twee keer zo vaak plaats als transversions.
BLOcks SUbsitution Matrix (BLOSUM) :
1. Neem een paar aligned homologous sequences
2. Groepeer zeer identieke sequences om redundancy biases in sequence database te verwijderen
3. Identificeren van well-aligned blocks zodat alleen echte mutaties worden vergeleken
(betrouwbare, goed-aligned homologen)
4. Tellen hoe vaak elk paar van twee aminozuren gemuteerd zijn in elkaar (hoe vaak ze aligned zijn)
BLOSUM-scores:
BLOSUM = similarity tussen aminozuren gebaseerd op statistische kans dat ze alignen in goed-aligned homologen.
Verhouding tussen observed (aligned in goed-aligned homologen) / expected (“aligned” in niet-aligned sequenties).
• BLOSUM verwijdert redundancy biases van blokken van well-aligned homologen
o Sequentieselectie in database is biased
o Zeer identieke reeksen worden collapsed
o Per cluster wordt één consesusreeks gebruikt om BLOSUM-matrix te berekenen
• Hoge scores collapsen alleen zeer identieke homologen (nauw verwante eiwitten vergelijken en detecteren)
• Lage scores collapsen meer uiteenlopende homologen (verder weg gelegen eiwitten vergelijken en detecteren)
BLOSUM62 :
BLOSUM62 → matrix levert odds ratio dat de sequenties goed-aligned homologen zijn met maximaal 62% identiteit.
Hoogste getallen in matrix → aminozuren meest aligned met zichzelf in goed-aligned homologen → residu is niet
gemuteerd, maar conserved.
3|Page
, Voorbeeld BLOSUM-scores :
• Neem aan: goed-aligned blok van 100 aminozuren lang, 1000 eiwitten “diep” en geen gaps heeft
• 7.4% alanine (A) → FA = 0.074 ; 1.3% tryptofaan (W) → FW = 0.013
• Willekeurig verwachten we een fractie van A-W alignments van FA ∙ FW = 0.074 ∙ 0.013 = 9.62 ∙ 10-4
• In realiteit observeren we een fractie van A-W alignments van FA,W = 3.4 ∙ 10-4
• A-W mutatie vindt minder frequent in evolutie plaats dan verwacht → negatieve substitutie-score
• A-W substitutie-score = SA,W = 2 ∙ log2 (FA,W / (FA ∙ FW)) = 2 ∙ log2 (3.4 ∙ 10-.62 ∙ 10-4) = – 3.001 … ≈ – 3
Betekenis BLOSUM-scores:
SI,J = 2 ∙ log2 (FI,J / (FI ∙ FJ)) → 2^(SI,J / 2) = FI,J / (FI ∙ FJ)
• SI,J = -3 → FI,J /(FI ∙ FJ) = 2-3/2 ≈ 0.35 → substitutie is 0.35x geobserveerd in goed-aligned homologen dan verwacht
• SI,J = 2 → FI,J /(FI ∙ FJ) = 22/2 ≈ 2 → substitutie is 2x geobserveerd in goed-aligned homologen dan verwacht
• SI,J = 9 → FI,J /(FI ∙ FJ) = 29/2 ≈ 22.6 → substitutie is 22.6x geobserveerd in goed-aligned homologen dan verwacht
Alignment scores:
Sample: MAPFAAFS
Seq2: MAPGAAFS
Alignment score = 5 + 4 + 7 – 3 + 4 + 4 + 6 + 4 = 31
Odds ratio: sequenties goed-aligned homologen:
• RYD – SDA → -1 – 3 – 2 = -6 → 2-6/2 = 0.125 → 0.125x meer kans op goed-aligned homologen dan verwacht
/ 8x minder kans op goed-aligned homologen dan verwacht
• RYD – SEA → -1 – 2 – 2 = -5 → 2-5/2 = 0.177 → 0.177x meer kans op goed-aligned homologen dan verwacht
/ 5.6x minder kans op goed-aligned homologen dan verwacht
• SDA – SEA → 4 + 2 + 4 = 10 → 210/2 = 32 → 32x meer kans op goed-aligned homologen dan verwacht
/ 0.03125x minder kans op goed-aligned homologen dan verwacht
Lengte van alignment:
• Sequenties zijn goed-aligned homologen → meeste aligned aminozuren zullen positieve scores hebben:
o Waarneming lengte sequences ↑ → alignmentscore ↑ → kans sequenties goed aligned homologen ↑
• Sequenties zijn niet-homologen → meeste aligned aminozuren zullen negatieve scores hebben:
o Waarneming lengte sequences ↑ → alignmentscore ↓ → kans sequenties goed aligned homologen ↓
4|Page