Needleman-Wunsch- und Smith-Waterman-Algorithmus
Definition:
Algorithmus zur Sequenzalignment in der Bioinformatik. Needleman-Wunsch für globales, Smith-Waterman für lokales Alignment.
Details:
- Needleman-Wunsch: findet optimales globales Alignment
- Smith-Waterman: findet optimales lokales Alignment
- Beide verwenden dynamische Programmierung
- Punktmatrix und Traceback, um besten Score und Alignments zu berechnen
- Gap-Strafen und Substitutionsmatrizen verwendet
PAM- und BLOSUM-Substitutionsmatrizen
Definition:
PAM- und BLOSUM-Matrizen sind Substitutionsmatrizen, die verwendet werden, um Ähnlichkeiten zwischen Sequenzen von Aminosäuren zu quantifizieren und Homologien zu bestimmen.
Details:
- PAM (Point Accepted Mutation): Basierte auf evolutionärer Divergenz
- BLOSUM (Blocks Substitution Matrix): Basierte auf konservierten Proteinsequenzen
- PAM1: 1 Mutation pro 100 Aminosäuren
- BLOSUM62: Matrix mit Sequenzen, die zu mindestens 62% identisch sind
- Log-Odds-Scores: Berechnung der Einträge
- Nützlich für Sequenzalignment und phylogenetische Analysen
Verwendung von BLAST für Sequenzsuche
Definition:
Verwendung von BLAST für den Abgleich von DNA-, RNA- oder Proteinsequenzen mit Datenbankeinträgen, um ähnliche oder identische Sequenzen zu finden.
Details:
- BLAST: Basic Local Alignment Search Tool
- Vergleich eingereichter Sequenz mit Datenbank
- Eingabe: Nukleotid- oder Proteinsequenz
- Ausgabe: Liste ähnlicher Sequenzen (Hitlist) + Allgemeine Vergleichsstatistik
- Score (S): Maß der Übereinstimmung/Ähnlichkeit ewline \text{erklärt: das logarithmierte Summenprodukt (Punktzahl)}
- E-Wert: Signifikanz des Treffers; je kleiner, desto besser
- Identifikation funktionaler Regionen, evolutionärer Beziehungen
Techniken der Next-Generation Sequencing (NGS)
Definition:
Sequenzierungsmethoden, die hohe Geschwindigkeit und parallele Sequenzierung ermöglichen; für die Analyse komplexer Genome geeignet.
Details:
- Illumina Sequenzierung: Basierend auf reversiblem Terminatorenverfahren, kurze Reads (50-300 bp)
- Ion Torrent Sequenzierung: Misst pH-Änderungen bei Nukleotid-Einbau, schnelle aber etwas ungenauere Reads
- PacBio Sequenzierung: Einzelmolekül-Realtime (SMRT), lange Reads (bis zu 30 kb) aber höhere Fehlerquote
- Nanopore Sequenzierung: DNA-Strang durch Nanopore, extrem lange Reads, aber anfällig für Fehler
- Datenanalyse: Qualitätskontrolle, Mapping, Assemblierung, Variantenanalyse
Annotation und vergleichende Genomik
Definition:
Identifikation und Analyse von Genen und funktionellen Regionen in Genomen sowie der vergleichende Ansatz zur Identifikation von evolutionären Beziehungen und funktionellen Gemeinsamkeiten.
Details:
- Genomannotation: Identifikation und Markierung von Genen, Promotoren, Exons, Introns, tRNAs, etc.
- Tools: BLAST, Genscan, Augustus
- Comparative Genomics: Vergleich von Genomen verschiedener Spezies
- Ziele: Erkennung konservierter Regionen, funktionelle Vorhersagen, evolutionäre Untersuchungen
- Methoden: Multiple Sequenzalignment, Phylogenetische Analysen
- Datenbanken: Ensembl, UCSC Genome Browser, NCBI Genomes
- Wichtig: Homologie, Orthologie, Paralogie
Statistische Methoden und maschinelles Lernen in der Bioinformatik
Definition:
Verwendung statistischer Modelle und maschinellen Lernens zur Analyse und Interpretation biologischer Daten.
Details:
- Lineare Regression: Form \(y = mx + b\)
- Logistische Regression: Wahrscheinlichkeit \(P(y=1) = \frac{1} {1 + e^{-z}} \)
- K-Means Clustering: Partitionierung in \(k\) Cluster
- Hauptkomponentenanalyse (PCA): Dimensionsreduktion
- Neuronale Netzwerke: Mehrschichtige Netzwerke zur Mustererkennung
- Kreuzvalidierung: Bewertung der Modellergebnisse
- Evaluationsmetriken: Genauigkeit, Präzision, Recall, F1-Score
Verwendung von Bioconductor und R für bioinformatische Analysen
Definition:
Verwendung von Bioconductor und R für bioinformatische Analysen.
Details:
- Bioconductor: Open-source-Projekt für bioinformatische Software
- R: Programmiersprache für statistische Analysen
- Nutzung: Daten-Import, -Analyse, -Visualisierung
- Wichtige Pakete: \texttt{DESeq2}, \texttt{edgeR}, \texttt{limma}
- Installation: \texttt{BiocManager::install()}}
- Beispiele: RNA-Seq-Datenanalyse, Differentialgeneexpression, Genom-Annotation
Workflow-Management-Systeme wie Galaxy und Nextflow
Definition:
Workflow-Management-Systeme wie Galaxy und Nextflow erleichtern die Automatisierung und Reproduzierbarkeit von bioinformatischen Analysen.
Details:
- Galaxy: Web-basierte Plattform, einfache Bedienung ohne Programmierkenntnisse.
- Nextflow: Skript-basierter Workflow-Manager, unterstützt Docker und Kubernetes, ideal für komplexe Pipelines.
- Beide Systeme unterstützen parallele Ausführung und Ressourcenkontrolle.
- Galaxy: GUI-Editor für Workflows, viele vorgefertigte Tools integriert.
- Nextflow: Modularität, Wiederverwendbarkeit von Codeschnipseln.