Bioinformatikfür Biowissenschaften 1 - Cheatsheet.pdf

Bioinformatikfür Biowissenschaften 1 - Cheatsheet
Needleman-Wunsch- und Smith-Waterman-Algorithmus Definition: Algorithmus zur Sequenzalignment in der Bioinformatik. Needleman-Wunsch für globales, Smith-Waterman für lokales Alignment. Details: Needleman-Wunsch: findet optimales globales Alignment Smith-Waterman: findet optimales lokales Alignment Beide verwenden dynamische Programmierung Punktmatrix und Traceback, um besten Score und Alignments z...

© StudySmarter 2024, all rights reserved.

Needleman-Wunsch- und Smith-Waterman-Algorithmus

Definition:

Algorithmus zur Sequenzalignment in der Bioinformatik. Needleman-Wunsch für globales, Smith-Waterman für lokales Alignment.

Details:

  • Needleman-Wunsch: findet optimales globales Alignment
  • Smith-Waterman: findet optimales lokales Alignment
  • Beide verwenden dynamische Programmierung
  • Punktmatrix und Traceback, um besten Score und Alignments zu berechnen
  • Gap-Strafen und Substitutionsmatrizen verwendet

PAM- und BLOSUM-Substitutionsmatrizen

Definition:

PAM- und BLOSUM-Matrizen sind Substitutionsmatrizen, die verwendet werden, um Ähnlichkeiten zwischen Sequenzen von Aminosäuren zu quantifizieren und Homologien zu bestimmen.

Details:

  • PAM (Point Accepted Mutation): Basierte auf evolutionärer Divergenz
  • BLOSUM (Blocks Substitution Matrix): Basierte auf konservierten Proteinsequenzen
  • PAM1: 1 Mutation pro 100 Aminosäuren
  • BLOSUM62: Matrix mit Sequenzen, die zu mindestens 62% identisch sind
  • Log-Odds-Scores: Berechnung der Einträge
  • Nützlich für Sequenzalignment und phylogenetische Analysen

Verwendung von BLAST für Sequenzsuche

Definition:

Verwendung von BLAST für den Abgleich von DNA-, RNA- oder Proteinsequenzen mit Datenbankeinträgen, um ähnliche oder identische Sequenzen zu finden.

Details:

  • BLAST: Basic Local Alignment Search Tool
  • Vergleich eingereichter Sequenz mit Datenbank
  • Eingabe: Nukleotid- oder Proteinsequenz
  • Ausgabe: Liste ähnlicher Sequenzen (Hitlist) + Allgemeine Vergleichsstatistik
  • Score (S): Maß der Übereinstimmung/Ähnlichkeit ewline \text{erklärt: das logarithmierte Summenprodukt (Punktzahl)}
  • E-Wert: Signifikanz des Treffers; je kleiner, desto besser
  • Identifikation funktionaler Regionen, evolutionärer Beziehungen

Techniken der Next-Generation Sequencing (NGS)

Definition:

Sequenzierungsmethoden, die hohe Geschwindigkeit und parallele Sequenzierung ermöglichen; für die Analyse komplexer Genome geeignet.

Details:

  • Illumina Sequenzierung: Basierend auf reversiblem Terminatorenverfahren, kurze Reads (50-300 bp)
  • Ion Torrent Sequenzierung: Misst pH-Änderungen bei Nukleotid-Einbau, schnelle aber etwas ungenauere Reads
  • PacBio Sequenzierung: Einzelmolekül-Realtime (SMRT), lange Reads (bis zu 30 kb) aber höhere Fehlerquote
  • Nanopore Sequenzierung: DNA-Strang durch Nanopore, extrem lange Reads, aber anfällig für Fehler
  • Datenanalyse: Qualitätskontrolle, Mapping, Assemblierung, Variantenanalyse

Annotation und vergleichende Genomik

Definition:

Identifikation und Analyse von Genen und funktionellen Regionen in Genomen sowie der vergleichende Ansatz zur Identifikation von evolutionären Beziehungen und funktionellen Gemeinsamkeiten.

Details:

  • Genomannotation: Identifikation und Markierung von Genen, Promotoren, Exons, Introns, tRNAs, etc.
  • Tools: BLAST, Genscan, Augustus
  • Comparative Genomics: Vergleich von Genomen verschiedener Spezies
  • Ziele: Erkennung konservierter Regionen, funktionelle Vorhersagen, evolutionäre Untersuchungen
  • Methoden: Multiple Sequenzalignment, Phylogenetische Analysen
  • Datenbanken: Ensembl, UCSC Genome Browser, NCBI Genomes
  • Wichtig: Homologie, Orthologie, Paralogie

Statistische Methoden und maschinelles Lernen in der Bioinformatik

Definition:

Verwendung statistischer Modelle und maschinellen Lernens zur Analyse und Interpretation biologischer Daten.

Details:

  • Lineare Regression: Form \(y = mx + b\)
  • Logistische Regression: Wahrscheinlichkeit \(P(y=1) = \frac{1} {1 + e^{-z}} \)
  • K-Means Clustering: Partitionierung in \(k\) Cluster
  • Hauptkomponentenanalyse (PCA): Dimensionsreduktion
  • Neuronale Netzwerke: Mehrschichtige Netzwerke zur Mustererkennung
  • Kreuzvalidierung: Bewertung der Modellergebnisse
  • Evaluationsmetriken: Genauigkeit, Präzision, Recall, F1-Score

Verwendung von Bioconductor und R für bioinformatische Analysen

Definition:

Verwendung von Bioconductor und R für bioinformatische Analysen.

Details:

  • Bioconductor: Open-source-Projekt für bioinformatische Software
  • R: Programmiersprache für statistische Analysen
  • Nutzung: Daten-Import, -Analyse, -Visualisierung
  • Wichtige Pakete: \texttt{DESeq2}, \texttt{edgeR}, \texttt{limma}
  • Installation: \texttt{BiocManager::install()}}
  • Beispiele: RNA-Seq-Datenanalyse, Differentialgeneexpression, Genom-Annotation

Workflow-Management-Systeme wie Galaxy und Nextflow

Definition:

Workflow-Management-Systeme wie Galaxy und Nextflow erleichtern die Automatisierung und Reproduzierbarkeit von bioinformatischen Analysen.

Details:

  • Galaxy: Web-basierte Plattform, einfache Bedienung ohne Programmierkenntnisse.
  • Nextflow: Skript-basierter Workflow-Manager, unterstützt Docker und Kubernetes, ideal für komplexe Pipelines.
  • Beide Systeme unterstützen parallele Ausführung und Ressourcenkontrolle.
  • Galaxy: GUI-Editor für Workflows, viele vorgefertigte Tools integriert.
  • Nextflow: Modularität, Wiederverwendbarkeit von Codeschnipseln.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden