Maschinelles Lernen in der klinischen Bioinformatik - Cheatsheet
Beaufsichtigtes und unbeaufsichtigtes Lernen
Definition:
Beaufsichtigtes und unbeaufsichtigtes Lernen: Grundlegende Methoden des maschinellen Lernens, verwendet in verschiedenen Anwendungen der klinischen Bioinformatik.
Details:
- Beaufsichtigtes Lernen: Training mit gelabelten Daten
- Ziel: Zuordnung von Eingaben zu bekannten Ausgaben
- Beispiele: Klassifikation, Regression
- Verfahren: KNN, SVM, Entscheidungsbäume, Neuronale Netze
- Wichtige Gleichung: Verlustfunktion: \(\text{L}(y, \tilde{y})\) zur Minimierung
- Unbeaufsichtigtes Lernen: Training mit ungelabelten Daten
- Ziel: Struktur oder Muster in den Daten finden
- Beispiele: Clustering, Dimensionsreduktion
- Verfahren: K-Means, PCA, t-SNE
- Wichtige Gleichung: Distanzfunktion: \(\text{D}(x_i, x_j)\) zur Clusterbildung
Validierung und Replikation von ML-Modellen in der Bioinformatik
Definition:
Überprüfung und Sicherstellung der Genauigkeit und Generalisierungsfähigkeit von ML-Modellen in der Bioinformatik.
Details:
- Validierung: Aufteilung der Daten in Trainings-, Validierungs- und Testdatensätze.
- Kreuzvalidierung: k-fache Kreuzvalidierung zur besseren Schätzung der Modellleistung.
- Replikation: Verifikation der Ergebnisse durch unabhängige Datensätze und externe Labore.
- Metriken: Verwendung von Metriken wie Accuracy, Precision, Recall, F1-Score, ROC-AUC.
- Bias-Variance Trade-off: Balance zwischen Überanpassung (Overfitting) und Unteranpassung (Underfitting).
- Verfahren: Bootstrap-Methoden und Permutationstests zur Einschätzung der Modellstabilität.
- Tools: Einsatz von Werkzeugen wie Scikit-learn, TensorFlow und Keras für Implementierung und Evaluation.
Training und Optimierung von Deep Learning Modellen
Definition:
Prozess des Anlernens eines neuronalen Netzes, um genaue Vorhersagen zu machen, durch Anpassung der Netzwerkgewichte mittels Optimierungstechniken.
Details:
- Datenaufteilung: Training, Validierung, Test
- Verlustfunktion: z.B. Kreuzentropie, MSE
- Optimierungsverfahren: Gradient Descent, Adam
- Hyperparameter: Lernrate, Batch-Größe
- Regularisierung: Dropout, L2-Norm
- Evaluierung: Genauigkeit, F1-Score
- Overfitting verhindern: Early Stopping, Datenaugmentation
Integration von verschiedenen Datentypen zur Krankheitsvorhersage
Definition:
Integration verschiedener Datentypen zur Verbesserung der Krankheitsvorhersage; Nutzung von Datenfusionstechniken um umfassende Modelle zu erstellen.
Details:
- Datentypen: klinische Daten, genetische Daten, Bilddaten, Omics-Daten (wie Proteomics, Metabolomics)
- Ziel: Erhaltung eines umfassenden Bildes der Gesundheitsbedingungen eines Patienten
- Datenfusion: Methoden der Kombination unterschiedlicher Datenquellen (früh, spät, intermediär)
- Maschinelles Lernen: Nutzung von Algorithmen wie Random Forest, SVM, neuronale Netze
- Evaluation: Einsatz von Metriken wie Genauigkeit, Sensitivität, Spezifität zur Bewertung der Modelle
Feature-Engineering und Datenvorverarbeitung
Definition:
Feature-Engineering: Auswahl und Transformation von Merkmalen zur Verbesserung der Leistung von ML-Modellen. Datenvorverarbeitung: Bereinigung und Transformation von Rohdaten vor der Modellerstellung.
Details:
- Feature Engineering: Erzeugen neuer Features, Feature-Selection, Skalierung, Normalisierung, Encoding, Binning
- Datenvorverarbeitung: Umgang mit fehlenden Werten, Datensatzbereinigung, outlier detection, Datenstandardisierung
- Transformationstechniken: PCA, LDA
- Ziel: Verbessern der Modellgenauigkeit, Reduktion der Dimensionen, Erhöhung der Trainingsgeschwindigkeit
Regression und Überlebenszeitanalysen
Definition:
Untersuchung von Zusammenhängen zwischen Prädiktoren und Zielgrößen, Überlebenszeitanalyse untersucht Zeit bis zu einem Ereignis.
Details:
- Lineare Regression: Schätzung der Beziehung zwischen abhängiger und unabhängigen Variablen.
- Formel: \( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \epsilon \).
- Logistische Regression: Modellierung der Wahrscheinlichkeit eines binären Outcomes.
- Formel: \( \text{logit}(p) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... \).
- Cox-Regressionsmodell: Analyse von Überlebenszeiten, Einbeziehung von Kovariaten.
- Formel: \( h(t) = h_0(t) \times e^{\beta_1 x_1 + \beta_2 x_2 + ...} \).
- Kaplan-Meier-Schätzer: Schätzung der Überlebensfunktion aus Lebensdauerdaten.
- Log-rank-Test: statistischer Test zum Vergleich von Überlebenskurven.
Identifikation von Biomarkern durch ML
Definition:
Verwendung von maschinellem Lernen (ML) zur Identifizierung von Biomarkern in medizinischen Daten für Diagnose, Prognose und Therapieentscheidungen.
Details:
- Datenquellen: Genexpressionsdaten, Proteomik-Daten, klinische Daten.
- Vorverarbeitung: Normalisierung, Skalierung, Bereinigung von Daten.
- Feature-Selection-Methoden: PCA, t-SNE, Lasso, Random Forest Importance.
- Typische ML-Modelle: SVM, RF, Neuronale Netze.
- Evaluierung: Kreuzvalidierung, ROC-Kurven, AUC-Score.
- Ziele: Früherkennung von Krankheiten, personalisierte Medizin.
Architekturen von Deep Learning Modellen
Definition:
Verschiedene Strukturen und Schichtenanordnungen, die in Deep Learning-Modellen verwendet werden, um spezifische Aufgaben zu lösen.
Details:
- Fully Connected Networks (FCN): Jede Neuronenschicht ist mit jeder Neuronenschicht der vorherigen Schicht voll verbunden.
- Convolutional Neural Networks (CNN): Enthalten Faltungsschichten (Convolutional Layers), die für die Erkennung von Mustern und Merkmalen in Bildern verwendet werden.
- Recurrent Neural Networks (RNN): Verarbeiten sequenzielle Daten, indem sie Informationen über Zeit hinweg speichern; häufig in Spracherkennung und Zeitreihenanalyse genutzt.
- Long Short-Term Memory Networks (LSTM): Spezialisierte RNNs, die langfristige Abhängigkeiten erfassen können, häufig in NLP verwendet.
- Autoencoder: Neuronale Netzwerke, die versuchen, Eingabedaten in eine komprimierte, latente Raumdarstellung zu codieren und wieder zu decodieren.
- Generative Adversarial Networks (GAN): Zwei Netzwerke (Generator und Diskriminator) arbeiten gegeneinander, um realistischere Daten zu erzeugen.
- Transformer: Architektur, die auf Selbstaufmerksamkeit (Self-Attention) basiert; besonders effektiv in NLP-Anwendungen (z.B. BERT, GPT).