Bioinformatikfür Biowissenschaften 1 - Exam.pdf

Bioinformatikfür Biowissenschaften 1 - Exam
Aufgabe 1) Du arbeitest als Bioinformatiker und musst eine Sequenzalignment-Analyse durchführen. Dir stehen zwei Sequenzen zur Verfügung: \textbf{Seq1}: ATGCT und \textbf{Seq2}: AGCT. Sie sollen sowohl das globale als auch das lokale Alignment der Sequenzen berechnen und analysieren. Nutze den Needleman-Wunsch- und den Smith-Waterman-Algorithmus mit folgenden Parametern: eine Match-Score von +2, e...

© StudySmarter 2024, all rights reserved.

Aufgabe 1)

Du arbeitest als Bioinformatiker und musst eine Sequenzalignment-Analyse durchführen. Dir stehen zwei Sequenzen zur Verfügung: \textbf{Seq1}: ATGCT und \textbf{Seq2}: AGCT. Sie sollen sowohl das globale als auch das lokale Alignment der Sequenzen berechnen und analysieren. Nutze den Needleman-Wunsch- und den Smith-Waterman-Algorithmus mit folgenden Parametern: eine Match-Score von +2, eine Mismatch-Strafe von -1 und eine Gap-Strafe von -2. Die Aufgaben umfassen dabei die Berechnung der Punktmatrix, die Durchführung des Tracebacks und die Interpretation der Ergebnisse.

a)

a) Berechne die Punktmatrix (Scoring Matrix) für das globale Alignment (Needleman-Wunsch-Algorithmus) zwischen den Sequenzen Seq1 und Seq2 unter Verwendung der angegebenen Parameter. Zeige alle Schritte der Berechnung.

Lösung:

Aufgabe a)Berechne die Punktmatrix (Scoring Matrix) für das globale Alignment (Needleman-Wunsch-Algorithmus) zwischen den Sequenzen Seq1: ATGCT und Seq2: AGCT unter Verwendung der folgenden Parameter:

  • Match-Score: +2
  • Mismatch-Strafe: -1
  • Gap-Strafe: -2
Der Needleman-Wunsch-Algorithmus basiert auf einer dynamischen Programmierung, bei der eine Punktmatrix aufgebaut wird. Die Schritte zur Berechnung der Punktmatrix sind:
  • Initialisiere die erste Reihe und die erste Spalte der Matrix mit den Gap-Strafen.
  • Berechne die Werte für die restlichen Zellen basierend auf den Match-, Mismatch- und Gap-Werten.
1. Initialisierung der Punktmatrix:Die Punktmatrix für Seq1 (ATGCT) und Seq2 (AGCT) wird wie folgt initialisiert:
    0  -2  -4  -6  -8   -2   -4   -6   -8  -10
2. Ausfüllen der Punktmatrix:Wir berechnen die einzelnen Zellen der Matrix gemäß den angegebenen Parametern. Die Formel hierfür lautet:
  • Diagonal (Match/Mismatch): Punktwert der Diagonale + (Match-Score oder Mismatch-Strafe)
  • Vertikal (Gap in Seq2): Punktwert der oberen Zelle + Gap-Strafe
  • Horizontal (Gap in Seq1): Punktwert der linken Zelle + Gap-Strafe
Berechnete Punktmatrix:Schritt-für-Schritt-Berechnung:
Schritt 1: Zelle (1,1) | Seq1[0]='A', Seq2[0]='A' | Match (2)    0  -2  -4  -6  -8   -2   2   -4   -6   -8  -10Schritt 2: Zelle (1,2) | Seq1[1]='T', Seq2[0]='A' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0   -4   -6   -8  -10Schritt 3: Zelle (1,3) | Seq1[2]='G', Seq2[0]='A' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2   -4   -6   -8  -10Schritt 4: Zelle (1,4) | Seq1[3]='C', Seq2[0]='A' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4   -4   -6   -8  -10Schritt 5: Zelle (1,5) | Seq1[4]='T', Seq2[0]='A' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4   -6   -8  -10Schritt 6: Zelle (2,1) | Seq1[0]='A', Seq2[1]='G' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   -6   -8  -10Schritt 7: Zelle (2,2) | Seq1[1]='T', Seq2[1]='G' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   -6   -8  -10Schritt 8: Zelle (2,3) | Seq1[2]='G', Seq2[1]='G' | Match (2)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   -6   -8  -10Schritt 9: Zelle (2,4) | Seq1[3]='C', Seq2[1]='G' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   -6   -8  -10Schritt 10: Zelle (2,5) | Seq1[4]='T', Seq2[1]='G' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6   -8  -10Schritt 11: Zelle (3,1) | Seq1[0]='A', Seq2[2]='C' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2   -8  -10Schritt 12: Zelle (3,2) | Seq1[1]='T', Seq2[2]='C' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   -8  -10Schritt 13: Zelle (3,3) | Seq1[2]='G', Seq2[2]='C' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   -8  -10Schritt 14: Zelle (3,4) | Seq1[3]='C', Seq2[2]='C' | Match (2)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6   -8  -10Schritt 15: Zelle (3,5) | Seq1[4]='T', Seq2[2]='C' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6  -2   -8  -10Schritt 16: Zelle (4,1) | Seq1[0]='A', Seq2[3]='T' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6  -2   -8 -3  -10Schritt 17: Zelle (4,2) | Seq1[1]='T', Seq2[3]='T' | Match (2)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6  -2   -8 -3   1  -10Schritt 18: Zelle (4,3) | Seq1[2]='G', Seq2[3]='T' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6  -2   -8 -3   1   0  -10Schritt 19: Zelle (4,4) | Seq1[3]='C', Seq2[3]='T' | Mismatch (-1)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6  -2   -8 -3   1   0   2  -10Schritt 20: Zelle (4,5) | Seq1[4]='T', Seq2[3]='T' | Match (2)    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6  -2   -8 -3   1   0   2   8  -10
Zusammenfassung der berechneten Punktmatrix:
    0  -2  -4  -6  -8   -2   2   0  -2  -4  -6   -4  0   1   4   2   0   -6 -2  -1   3   6  -2   -8 -3   1   0   2   8  -10

b)

b) Führe den Traceback für die Punktmatrix aus Aufgabe a) durch und gebe das resultierende globale Alignment an. Interpretiere das Ergebnis, insbesondere in Bezug auf Matches, Mismatches und Gaps.

Lösung:

Aufgabe b)Führe den Traceback für die Punktmatrix aus Aufgabe a) durch und gebe das resultierende globale Alignment an. Interpretiere das Ergebnis, insbesondere in Bezug auf Matches, Mismatches und Gaps.Traceback für die Punktmatrix:Beim Traceback beginnen wir in der unteren rechten Ecke der Punktmatrix und bewegen uns in Richtung der oberen linken Ecke. Dabei entscheiden wir in jedem Schritt, ob der aktuelle Eintrag von einem Diagonal-, Vertikal- oder Horizontal-Schritt herrührt, basierend auf dem maximalen Punktwert.Zusammengefasste Punktmatrix aus Aufgabe a):

       0  -2  -4  -6  -8    -2   2   0  -2  -4    -4   0   1   4   2    -6  -2   1   3   6    -8  -4   0   2   8
Schritt-für-Schritt Traceback:
  • Starte bei (4,5) mit Wert 8 (Seq1[4]='T' und Seq2[3]='T') -> Match → Beweg dich diagonal zur Zelle (3,4).
  • (3,4) mit Wert 6 (Seq1[3]='C' und Seq2[2]='C') -> Match -> Beweg dich diagonal zur Zelle (2,3).
  • (2,3) mit Wert 4 (Seq1[2]='G' und Seq2[1]='G') -> Match -> Beweg dich diagonal zur Zelle (1,2).
  • (1,2) mit Wert 2 (Seq1[1]='T' und Seq2[0]='A') -> Mismatch -> Beweg dich diagonal zur Zelle (0,1).
  • (0,1) kommt von einer Gap-Strafe, bewege dich links zur Zelle (0,0).
Traceback-Pfad:
(4,5) -> (3,4) -> (2,3) -> (1,2) -> (0,1) -> (0,0)
Resultierendes Alignment:Alignments basierend auf dem Traceback:
Seq1:  ATGCT        -|||Seq2:  A-GCT
  • Matches: 3 (G,G), (C,C), (T,T)
  • Mismatches: 1 (A,A)
  • Gaps: 1 (Seq1: T oder Seq2: -)
Interpretation des Ergebnisses:Das resultierende globale Alignment zeigt uns, wie gut die beiden Sequenzen zueinander passen.
  • Es gibt insgesamt 3 Matches, die anzeigen, dass drei Paare von Basen in den Sequenzen übereinstimmen.
  • Ein Mismatch zeigt eine Stelle, an der die Basen nicht übereinstimmen.
  • Ein Gap zeigt, dass an dieser Stelle in einer Sequenz eine Base fehlt, um eine optimale Übereinstimmung zu erreichen.
  • Das globale Alignment versucht die beste Übereinstimmung über die gesamte Länge der Sequenzen zu finden, selbst wenn dabei Gaps und Mismatches berücksichtigt werden müssen. Das Ergebnis zeigt, dass sich die beiden Sequenzen trotz einiger Unterschiede gut aneinander anpassen lassen. Die drei Matches verdeutlichen eine starke Übereinstimmung der Sequenzen, abgesehen von einem Mismatch und einem Gap.

    c)

    c) Berechne die Punktmatrix für das lokale Alignment (Smith-Waterman-Algorithmus) zwischen den Sequenzen Seq1 und Seq2 unter Verwendung der angegebenen Parameter. Zeige alle Schritte der Berechnung.

    Lösung:

    Aufgabe c)Berechne die Punktmatrix für das lokale Alignment (Smith-Waterman-Algorithmus) zwischen den Sequenzen Seq1: ATGCT und Seq2: AGCT unter Verwendung der folgenden Parameter:

    • Match-Score: +2
    • Mismatch-Strafe: -1
    • Gap-Strafe: -2
    Der Smith-Waterman-Algorithmus basiert ebenfalls auf der dynamischen Programmierung wie der Needleman-Wunsch-Algorithmus, jedoch ermöglicht er nur positive Punktzahlen, indem negative Werte durch Null ersetzt werden. Das lokale Alignment sucht nach dem optimalen Teil-Alignment in den Sequenzen.1. Initialisierung der Punktmatrix:Die Punktmatrix wird mit Nullen initialisiert.
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
2. Ausfüllen der Punktmatrix:Wir berechnen jede Zelle der Matrix gemäß den angegebenen Parametern, wobei negative Werte durch Null ersetzt werden. Die Formel hierfür lautet:
  • Diagonal (Match/Mismatch): Punktwert der Diagonale + (Match-Score oder Mismatch-Strafe)
  • Vertikal (Gap in Seq2): Punktwert der oberen Zelle + Gap-Strafe
  • Horizontal (Gap in Seq1): Punktwert der linken Zelle + Gap-Strafe
  • Wenn irgendein Wert negativ ist, setzen wir ihn auf Null.
Schritt-für-Schritt-Berechnung:
Schritt 1: Zelle (1,1) | Seq1[0]='A', Seq2[0]='A' | Match (2)    0  0  0  0  0  0  2  --  --  --  0  -- --  --  --  0  -- --  --  --  0  -- --  --  --Schritt 2: Zelle (1,2) | Seq1[1]='T', Seq2[0]='A' | Gap (-2)    0  0  0  0  0  0  2  0  --  --  0  -- --  --  --  0  -- --  --  --  0  -- --  --  --Schritt 3: Zelle (1,3) | Seq1[2]='G', Seq2[0]='A' | Gap (-2)    0  0  0  0  0  0  2  0  0  --  0  -- --  --  --  0  -- --  --  --  0  -- --  --  --Schritt 4: Zelle (1,4) | Seq1[3]='C', Seq2[0]='A' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  -- --  --  --  0  -- --  --  --  0  -- --  --  --Schritt 5: Zelle (2,1) | Seq1[0]='A', Seq2[1]='G' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  0  --  --  --  0  -- --  --  --  0  -- --  --  --Schritt 6: Zelle (2,2) | Seq1[1]='T', Seq2[1]='G' | Mismatch (-1)    0  0  0  0  0  0  2  0  0  0  0  0  1  --  --  0  -- --  --  --  0  -- --  --  --Schritt 7: Zelle (2,3) | Seq1[2]='G', Seq2[1]='G' | Match (2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  --  0  -- --  --  --  0  -- --  --  --Schritt 8: Zelle (2,4) | Seq1[3]='C', Seq2[1]='G' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  -- --  --  --  0  -- --  --  --Schritt 9: Zelle (3,1) | Seq1[0]='A', Seq2[2]='C' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  --  --  --  0  -- --  --  --Schritt 10: Zelle (3,2) | Seq1[1]='T', Seq2[2]='C' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  --  --  0  -- --  --  --Schritt 11: Zelle (3,3) | Seq1[2]='G', Seq2[2]='C' | Mismatch (-1)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  --  0  -- --  --  --Schritt 12: Zelle (3,4) | Seq1[3]='C', Seq2[2]='C' | Match (2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  4  0  -- --  --  --Schritt 13: Zelle (4,1) | Seq1[0]='A', Seq2[3]='T' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  4  0  0  --  --  --Schritt 14: Zelle (4,2) | Seq1[1]='T', Seq2[3]='T' | Match (2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  4  0  0  2  --  --Schritt 15: Zelle (4,3) | Seq1[2]='G', Seq2[3]='T' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  4  0  0  2  0  --Schritt 16: Zelle (4,4) | Seq1[3]='C', Seq2[3]='T' | Gap (-2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  4  0  0  2  0  0Schritt 17: Zelle (4,5) | Seq1[4]='T', Seq2[3]='T' | Match (2)    0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  4  0  0  2  0  0   4
Zusammenfassende Punktmatrix:
  0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  4  0  0  2  0  0
Die maximale Punktzahl in der Matrix ist 4, was auf das beste lokale Alignment bei den Positionen (3,4) und (4,4) hinweist. Diese Matrixwerte helfen, das optimale lokale Alignment zwischen den beiden Sequenzen zu zeigen, wobei nur die hoch gepunkteten lokalen Alignments beachtet werden.

d)

d) Führe den Traceback für die Punktmatrix aus Aufgabe c) durch und gebe das resultierende lokale Alignment an. Interpretiere auch hier das Ergebnis im Kontext von biologischen Sequenzen. Warum könnte ein lokales Alignment in bestimmten Fällen nützlicher sein als ein globales Alignment?

Lösung:

Aufgabe d)Führe den Traceback für die Punktmatrix aus Aufgabe c) durch und gebe das resultierende lokale Alignment an. Interpretiere auch hier das Ergebnis im Kontext von biologischen Sequenzen. Warum könnte ein lokales Alignment in bestimmten Fällen nützlicher sein als ein globales Alignment?Traceback für die Punktmatrix:Beim Traceback des Smith-Waterman-Algorithmus beginnen wir in der Zelle mit der höchsten Punktzahl und bewegen uns rückwärts, um das optimale lokale Alignment zu finden. Negative Punktzahlen werden dabei nicht berücksichtigt.Zusammenfassende Punktmatrix aus Aufgabe c):

  0  0  0  0  0  0  2  0  0  0  0  0  1  2  0  0  0  0  0  4  0  0  2  0  0
Höchste Punktzahl in der Matrix: 4 (Zelle (3,4))Schritt-für-Schritt Traceback:
  • Starte bei (3,4) mit Wert 4 (Seq1[3]='C' und Seq2[2]='C') -> Match -> Beweg dich diagonal zur Zelle (2,3).
  • (2,3) mit Wert 2 (Seq1[2]='G' und Seq2[1]='G') -> Match -> Beweg dich diagonal zur Zelle (1,2).
  • (1,2) mit Wert 1 (Seq1[1']='T' und Seq2[0]='A') -> Mismatch -> Beweg dich diagonal zur Zelle (0,1).
Traceback-Pfad:
(3,4) -> (2,3) -> (1,2)
Resultierendes Alignment:Alignments basierend auf dem Traceback:
Seq1: ATGCT                ===Seq2: A-GCT
  • Matches: 2 (G, G), (C, C)
  • Mismatches: 0
  • Gaps: 1
Interpretation des Ergebnisses:Das resultierende lokale Alignment zeigt den besten übereinstimmenden Teilabschnitt zwischen den beiden Sequenzen. Zwei Matches und ein Gap deuten darauf hin, dass es einen Abschnitt in Seq1 (ATGCT) gibt, der gut zu einem Abschnitt in Seq2 (AGCT) passt. Das lokale Alignment hebt somit die regionenspezifischen Ähnlichkeiten hervor.Warum könnte ein lokales Alignment in bestimmten Fällen nützlicher sein als ein globales Alignment?
  • Identifikation von funktionellen Domänen: Lokale Alignments sind besonders nützlich, um spezifische funktionelle Regionen oder Domänen in Protein- oder Nukleotidsequenzen zu identifizieren, die zwischen ansonsten nicht verwandten Sequenzen konserviert sind.
  • Unvollständige Sequenzen: Wenn eine der verglichenen Sequenzen unvollständig ist oder nur ein Teil der Sequenz verfügbar ist, kann ein lokales Alignment bessere Informationen darüber liefern, welche Bereiche der verfügbaren Sequenz signifikant sind.
  • Grosse Unterschiede in der Sequenzlänge: Lokale Alignments sind vorteilhaft, wenn die beiden Sequenzen deutlich unterschiedliche Längen haben, da sie sich auf die am besten übereinstimmenden Teile konzentrieren und nicht darauf bestehen, die gesamte Länge beider Sequenzen auszurichten.
  • Biologische Bedeutung: Lokale Alignments können helfen, Teilsequenzen mit biologischer Signifikanz zu finden, die in verschiedenen Sequenzen vorkommen, selbst wenn die Gesamtsequenzen nicht homolog sind.

Aufgabe 2)

Angenommen, Du arbeitest mit Sequenzdaten von Proteinen und möchtest die Ähnlichkeit zwischen zwei Aminosäuresequenzen quantifizieren. Dazu nutzt Du Substitutionsmatrizen wie PAM und BLOSUM. PAM-Matrizen basieren auf evolutionärer Divergenz, während BLOSUM-Matrizen auf konservierten Proteinsequenzen beruhen. Beispielsweise steht PAM1 für 1 Mutation pro 100 Aminosäuren und BLOSUM62 für eine Matrix mit Sequenzen, die zu mindestens 62% identisch sind. Einträge in diesen Matrizen werden als Log-Odds-Scores berechnet und können für Sequenzalignments und phylogenetische Analysen nützlich sein.

a)

a) Erläutere den Unterschied zwischen PAM- und BLOSUM-Matrizen und wie sie jeweils konstruiert werden. Warum könnte man eine BLOSUM-Matrix einer PAM-Matrix vorziehen?

Lösung:

Unterschied zwischen PAM- und BLOSUM-Matrizen und ihre Konstruktion:

  • PAM-Matrizen (Point Accepted Mutation):
    • PAM-Matrizen basieren auf evolutionären Veränderungen in Proteinsequenzen.
    • Sie werden konstruiert, indem man Sequenzen betrachtet, die durch evolutionäre Ereignisse (z.B. Mutationen) auseinander hervorgegangen sind.
    • Der Begriff PAM1 bedeutet, dass im Durchschnitt eine Mutation pro 100 Aminosäuren aufgetreten ist.
    • Höhere PAM-Werte (z.B. PAM250) werden durch Extrapolation von PAM1-Werten abgeleitet und beziehen sich auf eine größere Evolutionsdistanz.
  • BLOSUM-Matrizen (BLOcks SUbstitution Matrix):
    • BLOSUM-Matrizen basieren auf konservierten Proteindomänen, die in nah verwandten Organismen gefunden wurden.
    • Sie werden aus ungefilterten Sequenzen konstruiert, die in Blöcken von Proteinsequenzen vorkommen, die zu einem gewissen Grad identisch sind.
    • Der Begriff BLOSUM62 bedeutet, dass die Matrix basierend auf Sequenzen mit mindestens 62% Identität erstellt wurde.

Gründe, warum man eine BLOSUM-Matrix einer PAM-Matrix vorziehen könnte:

  • Anwendungsspektrum: BLOSUM-Matrizen sind in der Regel besser geeignet für die Untersuchung von Sequenzen, die einer bestimmten Gruppe von Organismen entstammen oder konservierte Proteindomänen enthalten. Sie bieten robuste Ergebnisse für nah verwandte Sequenzen.
  • Praxisorientiert: Da BLOSUM-Matrizen auf realen, konservierten Sequenzblöcken basieren, spiegeln sie tatsächliche biologische Gegebenheiten besser wider und sind für praktische Anwendungen, wie Datenbankenabfragen, oft besonders geeignet.
  • Flexibilität: Verschiedene Versionen der BLOSUM-Matrix (z.B. BLOSUM80, BLOSUM45) ermöglichen es, die Analyse je nach Identitätsgrad der Sequenzen flexibel anzupassen.

c)

c) Angenommen, Du verwendest eine PAM-Matrix für eine phylogenetische Analyse von zwei divergierenden Spezies. Begründe, warum Du eine Matrix mit einem höheren oder niedrigeren PAM-Wert wählen würdest, z. B. PAM30 vs. PAM250.

Lösung:

Auswahl einer PAM-Matrix für phylogenetische Analysen:

Wenn Du eine phylogenetische Analyse von zwei divergierenden Spezies durchführst, ist es wichtig, die richtige PAM-Matrix zu wählen. Die Wahl hängt von der Evolutionsdistanz zwischen den Spezies ab, die Du analysieren möchtest.

Grundlegende Überlegungen:

  • PAM-Matrizen und Evolutionsdistanz: PAM-Matrizen modellieren evolutionäre Veränderungen. Ein niedrigerer PAM-Wert, wie PAM30, wird für Sequenzen genutzt, die relativ nah verwandt sind und weniger Mutationen aufweisen. Ein höherer PAM-Wert, wie PAM250, wird für Sequenzen verwendet, die weiter voneinander entfernt sind und mehr Mutationen aufweisen.
  • PAM30: Diese Matrix repräsentiert eine geringe Anzahl an Mutationen (nur 30 pro 100 Aminosäuren). Sie ist ideal für die Analyse von Sequenzen, die nur geringfügig divergiert sind, also für kürzere Evolutionszeiträume.
  • PAM250: Diese Matrix repräsentiert eine hohe Anzahl an Mutationen (250 pro 100 Aminosäuren). Sie ist besser geeignet für die Analyse von Sequenzen, die weiter voneinander entfernt sind, also für längere Evolutionszeiträume.

Begründung für die Wahl eines höheren oder niedrigeren PAM-Werts:

  • Höherer PAM-Wert (z.B. PAM250): Wenn die beiden Spezies, die Du analysierst, weit divergiere Sequenzen besitzen, d.h. sie haben sich über einen langen Zeitraum hinweg voneinander entwickelt, wäre eine Matrix mit einem höheren PAM-Wert geeignet. Diese Matrix berücksichtigt eine größere Anzahl von Mutationen und ist somit besser darin, weit auseinander liegende evolutionäre Beziehungen zu modellieren.
    • Beispiel: Analysiere die evolutionäre Beziehung zwischen Säugetieren und Reptilien.
  • Niedrigerer PAM-Wert (z.B. PAM30): Wenn die beiden Spezies, die Du analysierst, eng verwandte Sequenzen haben, d.h. sie haben sich erst kürzlich in evolutionärer Zeitspanne voneinander entwickelt, wäre eine Matrix mit einem niedrigeren PAM-Wert geeignet. Diese Matrix ist besser darin, geringere Unterschiede und kürzere Evolutionszeiträume abzubilden.
    • Beispiel: Analysiere die evolutionäre Beziehung zwischen verschiedenen Arten von Drosophila (Fruchtfliegen), die sich erst vor kurzem auseinander entwickelt haben.

d)

d) Gib ein Beispiel für eine Anwendung, bei der Du wahrscheinlich BLOSUM62 anstelle einer anderen BLOSUM-Matrix (z. B. BLOSUM80 oder BLOSUM45) verwenden würdest. Begründe Deine Wahl anhand der konservierten Sequenzidentität und der Natur der Analyse.

Lösung:

Beispiel einer Anwendung und die Wahl der BLOSUM62-Matrix:

Angenommen, Du erhältst eine Aufgabe zur Untersuchung der funktionellen Konservierung von Proteinen in einer Gruppe moderat divergierter Spezies, z.B. bei der Untersuchung eines Proteins, das in verschiedenen Säugetieren vorkommt.

Wahl der BLOSUM62-Matrix:

  • Die BLOSUM62-Matrix wird oft als Standard für viele Alignments verwendet, da sie eine gute Balance bietet zwischen zu nah verwandten und zu weit divergierten Sequenzen. Sie beinhaltet Sequenzen, die zu mindestens 62% identisch sind.
  • Im Vergleich zu anderen BLOSUM-Matrizen, wie BLOSUM80 oder BLOSUM45, ist BLOSUM62 damit geeignet für Proteine, die konserviert sind, aber dennoch eine gewisse Variabilität aufweisen. Dies trifft oft auf Proteine in moderat divergierten Spezies zu, wie z.B. verschiedenen Säugetierarten.

Konkretes Beispiel: Analysiere die Konservierung von Hämoglobinsequenzen in verschiedenen Säugetierarten (wie Mensch, Hund, Katze und Kuh).

Begründung der Wahl:

  • Konservierte Sequenzidentität: Hämoglobin ist ein gut konserviertes Protein unter verschiedenen Säugetierarten. Die Identität der Sequenzen liegt typischerweise innerhalb des Bereichs, den BLOSUM62 abdeckt. Es ist weder zu nah verwandt (wie in BLOSUM80 abgedeckt) noch zu weit divers (wie in BLOSUM45 abgedeckt).
  • Effektiv für moderate Ähnlichkeit: Wenn Du zu konservative Matrix wie BLOSUM80 verwendest, könntest Du viele nützliche Unterschiede übersehen, die auch relevant sind. Wenn Du hingegen zu divergente Matrix wie BLOSUM45 verwendest, könntest Du in die Gefahr laufen, zu viele Unterschiede zuzulassen, die weniger relevant für die Funktion sind.
  • Praktische Anwendung: BLOSUM62 wird oft in Datenbankabfragen und standardisierten Alignments verwendet, da es eine gute Balance bietet. Es hilft Dir, funktionell relevante, aber dennoch variierende Sequenzen zu identifizieren, was in biologischen Studien oft der entscheidende Faktor ist.

Aufgabe 3)

Du hast eine unbekannte DNA-Sequenz in Deinem Forschungslabor entdeckt. Um mehr über die mögliche Funktion dieser Sequenz zu erfahren und ähnliche Sequenzen in bekannten Datenbanken zu finden, entscheidest Du Dich, BLAST (Basic Local Alignment Search Tool) zu verwenden. BLAST hilft beim Abgleich von DNA-, RNA- oder Proteinsequenzen mit Einträgen in einer Datenbank und gibt eine Liste ähnlicher Sequenzen, auch Hitlist genannt, sowie eine allgemeine Vergleichsstatistik aus. Du bekommst einen Score (S), der Maß der Übereinstimmung bzw. Ähnlichkeit ist, und einen E-Wert, der die Signifikanz des Treffers angibt, wobei gilt: je kleiner der E-Wert, desto besser die Übereinstimmung.

a)

Beschreibe den Prozess, wie Du eine BLAST-Suche durchführst, beginnend mit der Eingabe der DNA-Sequenz bis hin zur Interpretation der Ergebnisse. Gehe dabei auf folgende Punkte ein:

  • Eingabe der Sequenz
  • Auswahl der Datenbank
  • Bedeutung des Scores (S) und des E-Werts
  • Wie identifizierst Du funktionale Regionen der Sequenz?

Lösung:

Prozess zur Durchführung einer BLAST-Suche:Die Durchführung einer BLAST-Suche besteht aus mehreren wichtigen Schritten, um von der Eingabe der DNA-Sequenz bis hin zur Interpretation der Ergebnisse zu gelangen. Hier ist eine detaillierte Beschreibung des Prozesses:

  • Eingabe der Sequenz: Der erste Schritt besteht darin, die DNA-Sequenz, die Du untersuchen möchtest, in das BLAST-Tool einzugeben. Dies kann über eine Web-Oberfläche der NCBI (National Center for Biotechnology Information) BLAST-Website erfolgen. Hier kopierst Du einfach die Nukleotidsequenz und fügst sie in das Eingabefeld ein. Alternativ dazu kannst Du auch eine Sequenzdatei hochladen.
  • Auswahl der Datenbank: Nach der Eingabe der Sequenz wählst Du die Datenbank aus, gegen die Du die Sequenz abgleichen möchtest. Für DNA-Sequenzen kannst Du beispielsweise die Nr/nt (Nicht-redundante Nukleotidsequenz-Datenbank) oder spezialisierte Datenbanken wie RefSeqGene auswählen. Die Wahl der Datenbank hängt davon ab, welchen Vergleichsinformationen Du suchst (zum Beispiel vollständige Genome, Gene, mRNAs etc.).
  • Bedeutung des Scores (S) und des E-Werts: Nach der Durchführung der BLAST-Suche erhältst Du eine Liste von Übereinstimmungen in Form einer Hitlist. Jeder Treffer ist mit einem Score (S) und einem E-Wert versehen:
    • Score (S): Dieser Wert misst die Ähnlichkeit zwischen der eingegebenen Sequenz und der gefundenen Sequenz. Je höher der Score, desto größer die Übereinstimmung.
    • E-Wert: Der Erwartungswert (E-Wert) gibt an, wie signifikant der Treffer ist. Ein niedriger E-Wert bedeutet, dass es sehr unwahrscheinlich ist, dass es sich um einen Zufallstreffer handelt. Beispielsweise signalisiert ein E-Wert von 0.001 eine sehr hohe Signifikanz.
  • Wie identifizierst Du funktionale Regionen der Sequenz? Um funktionale Regionen innerhalb der Treffersequenzen zu identifizieren, können folgende Ansätze genutzt werden:
    • Vergleich mit bekannten funktionalen Domänen und Motiven in Protein-Datenbanken (zum Beispiel Pfam, SMART).
    • Analyse der Übereinstimmungen mit annotierten Genen in der Zugrundeliegenden Datenbank. Oft sind funktionale Regionen bereits in den Datenbankeinträgen annotiert.
    • Betrachtung der konservierten Regionen in mehreren Übereinstimmungen, was auf wichtige funktionale Bereiche hinweist.
    • Nutzung zusätzlicher bioinformatischer Tools, die auf die Entdeckung spezifischer funktionaler Elemente spezialisiert sind (zum Beispiel ORF-Finder, Promoter-Analyse-Tools etc.).
Durch die sorgfältige Analyse der Ergebnisse kannst Du somit wertvolle Erkenntnisse über die mögliche Funktion der DNA-Sequenz gewinnen und Hypothesen für weitere Experimente im Labor entwickeln.

b)

Angenommen, die folgenden Ergebnisse wurden nach einer BLAST-Suche für eine eingegebene DNA-Sequenz erhalten:

  • Score (S): 250
  • E-Wert: 5e-20
  • Identität: 98%
  • Länge der Übereinstimmung: 300 bp

Berechne die Wahrscheinlichkeit, dass dieser Treffer zufällig (nicht signifikant) ist. Erkläre weiterhin, warum der E-Wert wichtig ist und wie Du sicherstellst, dass dieser Treffer tatsächlich biologisch relevant ist.

Lösung:

Berechnung der Wahrscheinlichkeit, dass dieser Treffer zufällig (nicht signifikant) ist:

Der E-Wert (Erwartungswert) gibt an, wie viele Treffer man zufällig erwarten würde, die genauso gut oder besser sind als der gefundene Treffer, wenn die Suche in einer zufälligen Datenbank durchgeführt wird. Ein E-Wert von 5e-20 bedeutet, dass man im Durchschnitt nur 5 * 10^{-20} solche Treffer erwarten würde.

Mathematisch entspricht dies:

  • 0.00000000000000000005 oder anders ausgedrückt, einer Wahrscheinlichkeit von 0.000000000000000005%

Dies zeigt, dass die Wahrscheinlichkeit, dass dieser Treffer zufällig (nicht signifikant) ist, äußerst gering ist.

Bedeutung des E-Werts:

  • Der E-Wert ist wichtig, da er die statistische Signifikanz des Treffers ausdrückt. Ein niedriger E-Wert signalisiert, dass die gefundene Übereinstimmung sehr wahrscheinlich nicht zufällig ist und somit biologisch relevant sein könnte.
  • Ein hoher Score (S) kombiniert mit einem niedrigen E-Wert impliziert, dass der Treffer nicht nur hochgradig übereinstimmt, sondern auch biologisch signifikant ist.

Wie Du sicherstellst, dass dieser Treffer tatsächlich biologisch relevant ist:

  • Identität: Eine Identität von 98% ist ein starkes Indiz dafür, dass die Sequenzen sehr ähnlich sind, was die Wahrscheinlichkeit erhöht, dass sie biologisch ähnlich funktionieren.
  • Länge der Übereinstimmung: Eine Übereinstimmungslänge von 300 bp zeigt, dass ein signifikanter Teil der Sequenz übereinstimmt, was die biologische Relevanz weiter unterstützt.
  • Kontextanalyse: Überprüfe, ob die gefundenen Sequenzen in der Hitlist funktionelle Annotationen oder Publikationen haben. Dies kann zusätzliche Hinweise auf die biologische Bedeutung der gefundenen Übereinstimmungen geben.
  • Vergleich mit bekannten Motiven/Domänen: Verwendet Tools wie Pfam oder InterPro, um zu prüfen, ob die gefundene Sequenz bekannte funktionelle Domänen enthält.
  • Experimentelle Verifizierung: Biologische Experimente, wie zum Beispiel Expressionsanalysen oder Knockout-Experimente, können helfen, die Funktion der gefundenen Sequenz zu bestätigen und ihre biologische Relevanz zu beweisen.

Aufgabe 4)

Techniken der Next-Generation Sequencing (NGS)Sequenzierungsmethoden, die hohe Geschwindigkeit und parallele Sequenzierung ermöglichen; für die Analyse komplexer Genome geeignet.

  • Illumina Sequenzierung: Basierend auf reversiblem Terminatorenverfahren, kurze Reads (50-300 bp)
  • Ion Torrent Sequenzierung: Misst pH-Änderungen bei Nukleotid-Einbau, schnelle aber etwas ungenauere Reads
  • PacBio Sequenzierung: Einzelmolekül-Realtime (SMRT), lange Reads (bis zu 30 kb) aber höhere Fehlerquote
  • Nanopore Sequenzierung: DNA-Strang durch Nanopore, extrem lange Reads, aber anfällig für Fehler
  • Datenanalyse: Qualitätskontrolle, Mapping, Assemblierung, Variantenanalyse

a)

Vergleiche die Illumina-, Ion Torrent- und PacBio-Sequenzierungstechniken unter dem Aspekt der Fehlerrate und Lese-Länge. Nenne konkrete Werte, falls möglich.

Lösung:

  • Illumina Sequenzierung
    • Fehlerrate: Die Fehlerrate bei der Illumina Sequenzierung liegt normalerweise unter 0,1%, was sie zu einer der präzisesten Sequenzierungstechniken macht.
    • Lese-Länge (Reads): Die Read-Längen bei Illumina schwanken zwischen 50 und 300 Basenpaaren (bp).
  • Ion Torrent Sequenzierung
    • Fehlerrate: Die Ion Torrent Sequenzierung hat eine höhere Fehlerrate im Vergleich zu Illumina, typischerweise zwischen 1% und 2%.
    • Lese-Länge (Reads): Die Read-Längen bei Ion Torrent sind vergleichbar mit denen von Illumina und liegen zwischen 100 und 400 bp.
  • PacBio Sequenzierung
    • Fehlerrate: Die Fehlerrate bei PacBio Sequenzierung ist deutlich höher und kann bis zu 10-15% betragen. Fortschritte in der Technologie und bioinformatische Korrekturen haben jedoch die Fehlerquote in der Praxis oft gesenkt.
    • Lese-Länge (Reads): Die Read-Längen bei PacBio sind wesentlich länger und können bis zu 30.000 bp (30 kb) erreichen.

b)

Erkläre, wie die Nanopore-Sequenzierung funktioniert und identifiziere zwei potenzielle Fehlerquellen dieser Technik.

Lösung:

  • Funktionsweise der Nanopore-SequenzierungDie Nanopore-Sequenzierung ist eine Technologie, bei der ein einzelner DNA-Strang durch eine winzige Pore (Nanopore) in einer Membran gezogen wird. Während die DNA durch die Pore geht, verursacht jedes Nukleotid eine charakteristische Veränderung im Ionenstrom, der durch die Pore fließt. Diese Veränderungen im Ionenstrom werden gemessen und analysiert, um die DNA-Sequenz zu bestimmen. Nanopore-Sequenzierung bietet den Vorteil extrem langer Reads, die für die Analyse komplexer Genome nützlich sind.
  • Potenzielle Fehlerquellen der Nanopore-Sequenzierung
    • Unpräzise Ionenstrommessungen: Die Nanopore-Sequenzierung beruht auf der präzisen Messung von Ionenstromänderungen. Eventuelle Schwankungen oder Störungen im Ionenstrom können zu Fehlern bei der Identifizierung der Nukleotide führen, was zu einer höheren Fehlerrate führt.
    • Probleme beim Lesen langer homopolymerer Sequenzen: Homopolymere (lange Sequenzen desselben Nukleotids) sind schwierig für die Nanopore-Technologie, da kleine Unterschiede in der Signalintensität schwer zu unterscheiden sind. Dies kann zu Fehlern bei der genauen Sequenzbestimmung führen.

c)

Angenommen, Du hast eine Probe mit einer Genomgröße von etwa 3 Milliarden Basenpaaren. Berechne, wie viele Reads von jeweils 150 Basenpaaren Länge (typisch für Illumina) mindestens nötig wären, um das gesamte Genom abzudecken. Berücksichtige dabei eine Zielabdeckungstiefe von 30x.

Lösung:

Um die erforderliche Anzahl an Reads zu berechnen, die notwendig sind, um ein Genom mit einer Größe von 3 Milliarden Basenpaaren bei einer Abdeckungstiefe von 30x zu sequenzieren, gehen wir Schritt für Schritt vor:

  • Genomgröße: 3 Milliarden Basenpaare = 3.000.000.000 Basenpaare
  • Zielabdeckungstiefe: 30x
  • Read-Länge: 150 Basenpaare

Die Abdeckungstiefe (oder Coverage) ist definiert als die Anzahl der Male, die jede Base im Genom im Durchschnitt gelesen wird. Bei einer Abdeckungstiefe von 30x soll jede Base im Genom im Durchschnitt 30 Mal gelesen werden.

  • Gesamtzahl der Basen, die sequenziert werden müssen:
    • 3.000.000.000 Basenpaare * 30 = 90.000.000.000 Basenpaare
    • Erforderliche Anzahl der Reads:
      • 90.000.000.000 Basenpaare / 150 Basenpaare pro Read = 600.000.000 Reads

    Du würdest also mindestens 600 Millionen Reads von jeweils 150 Basenpaaren Länge benötigen, um das gesamte Genom mit einer Abdeckungstiefe von 30x zu sequenzieren.

    d)

    Beschreibe die Schritte der Datenanalyse nach der Sequenzierung mittels Illumina-Technik und erläutere die Bedeutung der Qualitätskontrolle in diesem Prozess.

    Lösung:

    • Schritte der Datenanalyse nach der Sequenzierung mittels Illumina-Technik
      • 1. Rohdaten-Generierung: Nach der Sequenzierung werden die Rohdaten als Sequenzierungs-Reads (kurze DNA-Sequenzen) generiert und in FASTQ-Dateien gespeichert. Diese Dateien enthalten die Sequenzdaten und Qualitätsinformationen jeder Base.
      • 2. Qualitätskontrolle (QC): Die Rohdaten werden einer Qualitätskontrolle unterzogen, um die Datenqualität zu bewerten. Software wie FastQC wird verwendet, um Metriken wie Basenqualität, GC-Gehalt, Adapterkontamination und Sequenzlängenverteilung zu überprüfen. Reads mit niedriger Qualität oder Kontaminationen werden gefiltert oder getrimmt.
      • 3. Alignment (Mapping): Die gereinigten Reads werden auf ein Referenzgenom ausgerichtet (gemappt) mittels Software wie BWA oder Bowtie. Dies ermöglicht die Zuordnung jeder Read zur entsprechenden Position im Referenzgenom.
      • 4. Assembly: In Fällen, in denen kein geeignetes Referenzgenom vorhanden ist oder bei de-novo-Sequenzierung, werden die Reads zu längeren Kontigs oder vollständigen Genomen zusammengesetzt (assemblierung). Tools wie SPAdes oder Velvet werden hierfür verwendet.
      • 5. Variantenanalyse: Nach dem Mapping oder der Assemblierung werden genetische Varianten (SNPs, Indels) identifiziert. Software wie GATK oder SAMtools werden verwendet, um Unterschiede zwischen der Probe und dem Referenzgenom zu erkennen.
      • 6. Annotation und Interpretation: Die identifizierten Varianten werden annotiert und interpretiert, um ihre funktionelle Bedeutung zu verstehen. Tools wie ANNOVAR oder SnpEff werden verwendet, um die Positionen der Varianten im Genom zu annotieren und mögliche Auswirkungen auf Gene oder Proteine zu bewerten.
    • Bedeutung der Qualitätskontrolle (QC)
      • Vermeidung von Fehlinterpretationen: Die Qualitätskontrolle stellt sicher, dass nur hochwertige Daten für die nachfolgenden Analyse-Schritte verwendet werden. Dies verhindert Fehlinterpretationen und falsche Schlussfolgerungen.
      • Entfernung von Artefakten: Während der Sequenzierung können technische Artefakte entstehen (z.B. Adapterkontamination). Die QC identifiziert und entfernt solche Artefakte, um die Datenqualität zu verbessern.
      • Erkennung von Fehlerquellen: Durch die QC können Fehlerquellen wie niedrige Sequenzierungsqualität oder systematische Fehler erkannt und behoben werden.
      • Optimierung der Datenanalyse: Eine gründliche QC erleichtert die Identifikation und Behebung von Problemen, die die Genauigkeit der Mapping-, Assembly- und Variantenanalyse beeinträchtigen könnten.
      • Gewährleistung reproduzierbarer Ergebnisse: Eine standardisierte und sorgfältige QC stellt sicher, dass die Ergebnisse der Sequenzierungsexperimente reproduzierbar und verlässlich sind.
    Sign Up

    Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

    Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

    Kostenloses Konto erstellen

    Du hast bereits ein Konto? Anmelden