Grundlagen der Genomsequenzierung
Definition:
Methode zur Bestimmung der Nukleotidsequenz eines Genoms.
Details:
- Sequenziertypen: Sanger-Sequenzierung, Next-Generation-Sequencing (NGS)
- Schritt 1: DNA-Extraktion
- Schritt 2: DNA-Fragmentierung
- Schritt 3: Library Preparation
- Schritt 4: Sequenzierung
- Schritt 5: Datenanalyse
- GC-Gehalt: Verteilung der Basen Guanin (G) und Cytosin (C)
- Wichtig: Qualitätskontrolle und Fehlerkorrektur
Next-Generation Sequencing (NGS)
Definition:
Hochdurchsatz-Sequenzierungsmethode für DNA/RNA; ermöglicht parallele Sequenzierung vieler Proben.
Details:
- Geringere Kosten und höhere Geschwindigkeit als Sanger-Sequenzierung
- Nutzt parallele Sequenzierungstechniken
- Anwendungen: Genomik, Transkriptomik, Metagenomik
- Datenanalyse erfordert bioinformatische Methoden
- Hohe Genauigkeit und Abdeckung
Bioinformatische Analyse von Genomdaten
Definition:
Analyse von DNA-Sequenzen zur Identifikation von Genen, Mutationen, und funktionellen Elementen
Details:
- Sequenzvergleich: Alignment und Homologie-Suche
- Genomannotation: Identifikation von Genen, Transkripten und Exons
- Mutationsanalyse: SNPs, Indels und strukturelle Variationen
- Funktionelle Analyse: Gen-Ontologie (GO), Protein-Protein-Interaktionen
- Software: BLAST, BWA, GATK, ANNOVAR
- Techniken: NGS (Illumina, PacBio), Sanger-Sequenzierung, Microarrays
Regulation und funktionelle Genomik
Definition:
Regulation und funktionelle Genomik befasst sich mit der Steuerung der Genexpression und der Identifizierung der Funktion von Genen innerhalb des Genoms.
Details:
- Analysemethoden: RNA-Seq, ChIP-Seq
- Genregulation: Transkriptionsfaktoren und epigenetische Modifikationen
- Funktionelle Genomik: Knockout/Knockdown, CRISPR-Cas9, RNAi
- Datenanalyse: Bioinformatik, statistische Werkzeuge
- Modelorganismen: Hefe, Maus, Zebrafisch
Varianzanalyse und Regressionsmodelle
Definition:
Varianzanalyse (ANOVA) und Regressionsmodelle sind statistische Methoden zur Untersuchung von Zusammenhängen zwischen Variablen.
Details:
- Varianzanalyse: Überprüft Mittelwertunterschiede zwischen Gruppen.
- Annahme: Normalverteilung und Homogenität der Varianz.
- Formel: \[F = \frac{MS_{between}}{MS_{within}}\]
- Regressionsmodelle: Beschreiben Beziehung zwischen abhängiger und unabhängiger Variable.
- Lineare Regression: \[y = \beta_0 + \beta_1 x + \epsilon\]
- Koeffizienten \(\beta_0\) (Achsenabschnitt) und \(\beta_1\) (Steigung).
Kausale Inferenz und Validität
Definition:
Bestimmung des Ursache-Wirkungs-Zusammenhangs bei Experimenten und Studien sowie Prüfung der Zuverlässigkeit der Ergebnisse.
Details:
- Interne Validität: Wie gut ein Experiment einer Ursache-Wirkungs-Beziehung findet.
- Externe Validität: Übertragbarkeit der Ergebnisse auf andere Kontexte/Populatinen.
- Konfundierung: Einfluss von Störvariablen, die Assoziationen zwischen unabhängigen und abhängigen Variablen verfälschen können.
- Randomisierung: Zufällige Zuteilung von Versuchspersonen zu Gruppen zur Minimierung von Konfundierungen.
- Kausale Modelle: Verwendung von statistischen Modellen wie
Maschinelles Lernen und Clusteranalyse
Definition:
Maschinelles Lernen und Clusteranalyse sind Techniken, die in der biostatistischen Analyse genutzt werden, um Muster in komplexen Datensätzen zu erkennen und biologische Zusammenhänge zu identifizieren.
Details:
- Maschinelles Lernen: Algorithmen, die aus Daten lernen und Vorhersagen treffen oder Entscheidungen treffen, z. B. Entscheidungsbäume, neuronale Netzwerke
- Clusteranalyse: Methode zur Gruppierung von Datensätzen in Cluster mit ähnlichen Eigenschaften, z. B. K-Means, hierarchische Clusteranalyse
- Anwendungen: Genomik, Proteomik, Identifikation von Biomarkern, Patientenkategorisierung
- Mathematische Grundlagen: \textbf{Distanzmessung} (z. B. euklidische Distanz), \textbf{Kostenfunktionen} (z. B. Mean Squared Error), \textbf{Optimierungsalgorithmen}
- Implementierung: Software-Tools wie R, Python (Scikit-learn, TensorFlow)