Maschinelles Lernen in der klinischen Bioinformatik - Cheatsheet.pdf

Maschinelles Lernen in der klinischen Bioinformatik - Cheatsheet
Maschinelles Lernen in der klinischen Bioinformatik - Cheatsheet Beaufsichtigtes und unbeaufsichtigtes Lernen Definition: Beaufsichtigtes und unbeaufsichtigtes Lernen: Grundlegende Methoden des maschinellen Lernens, verwendet in verschiedenen Anwendungen der klinischen Bioinformatik. Details: Beaufsichtigtes Lernen: Training mit gelabelten Daten Ziel: Zuordnung von Eingaben zu bekannten Ausgaben B...

© StudySmarter 2025, all rights reserved.

Maschinelles Lernen in der klinischen Bioinformatik - Cheatsheet

Beaufsichtigtes und unbeaufsichtigtes Lernen

Definition:

Beaufsichtigtes und unbeaufsichtigtes Lernen: Grundlegende Methoden des maschinellen Lernens, verwendet in verschiedenen Anwendungen der klinischen Bioinformatik.

Details:

  • Beaufsichtigtes Lernen: Training mit gelabelten Daten
  • Ziel: Zuordnung von Eingaben zu bekannten Ausgaben
  • Beispiele: Klassifikation, Regression
  • Verfahren: KNN, SVM, Entscheidungsbäume, Neuronale Netze
  • Wichtige Gleichung: Verlustfunktion: \(\text{L}(y, \tilde{y})\) zur Minimierung
  • Unbeaufsichtigtes Lernen: Training mit ungelabelten Daten
  • Ziel: Struktur oder Muster in den Daten finden
  • Beispiele: Clustering, Dimensionsreduktion
  • Verfahren: K-Means, PCA, t-SNE
  • Wichtige Gleichung: Distanzfunktion: \(\text{D}(x_i, x_j)\) zur Clusterbildung

Validierung und Replikation von ML-Modellen in der Bioinformatik

Definition:

Überprüfung und Sicherstellung der Genauigkeit und Generalisierungsfähigkeit von ML-Modellen in der Bioinformatik.

Details:

  • Validierung: Aufteilung der Daten in Trainings-, Validierungs- und Testdatensätze.
  • Kreuzvalidierung: k-fache Kreuzvalidierung zur besseren Schätzung der Modellleistung.
  • Replikation: Verifikation der Ergebnisse durch unabhängige Datensätze und externe Labore.
  • Metriken: Verwendung von Metriken wie Accuracy, Precision, Recall, F1-Score, ROC-AUC.
  • Bias-Variance Trade-off: Balance zwischen Überanpassung (Overfitting) und Unteranpassung (Underfitting).
  • Verfahren: Bootstrap-Methoden und Permutationstests zur Einschätzung der Modellstabilität.
  • Tools: Einsatz von Werkzeugen wie Scikit-learn, TensorFlow und Keras für Implementierung und Evaluation.

Training und Optimierung von Deep Learning Modellen

Definition:

Prozess des Anlernens eines neuronalen Netzes, um genaue Vorhersagen zu machen, durch Anpassung der Netzwerkgewichte mittels Optimierungstechniken.

Details:

  • Datenaufteilung: Training, Validierung, Test
  • Verlustfunktion: z.B. Kreuzentropie, MSE
  • Optimierungsverfahren: Gradient Descent, Adam
  • Hyperparameter: Lernrate, Batch-Größe
  • Regularisierung: Dropout, L2-Norm
  • Evaluierung: Genauigkeit, F1-Score
  • Overfitting verhindern: Early Stopping, Datenaugmentation

Integration von verschiedenen Datentypen zur Krankheitsvorhersage

Definition:

Integration verschiedener Datentypen zur Verbesserung der Krankheitsvorhersage; Nutzung von Datenfusionstechniken um umfassende Modelle zu erstellen.

Details:

  • Datentypen: klinische Daten, genetische Daten, Bilddaten, Omics-Daten (wie Proteomics, Metabolomics)
  • Ziel: Erhaltung eines umfassenden Bildes der Gesundheitsbedingungen eines Patienten
  • Datenfusion: Methoden der Kombination unterschiedlicher Datenquellen (früh, spät, intermediär)
  • Maschinelles Lernen: Nutzung von Algorithmen wie Random Forest, SVM, neuronale Netze
  • Evaluation: Einsatz von Metriken wie Genauigkeit, Sensitivität, Spezifität zur Bewertung der Modelle

Feature-Engineering und Datenvorverarbeitung

Definition:

Feature-Engineering: Auswahl und Transformation von Merkmalen zur Verbesserung der Leistung von ML-Modellen. Datenvorverarbeitung: Bereinigung und Transformation von Rohdaten vor der Modellerstellung.

Details:

  • Feature Engineering: Erzeugen neuer Features, Feature-Selection, Skalierung, Normalisierung, Encoding, Binning
  • Datenvorverarbeitung: Umgang mit fehlenden Werten, Datensatzbereinigung, outlier detection, Datenstandardisierung
  • Transformationstechniken: PCA, LDA
  • Ziel: Verbessern der Modellgenauigkeit, Reduktion der Dimensionen, Erhöhung der Trainingsgeschwindigkeit

Regression und Überlebenszeitanalysen

Definition:

Untersuchung von Zusammenhängen zwischen Prädiktoren und Zielgrößen, Überlebenszeitanalyse untersucht Zeit bis zu einem Ereignis.

Details:

  • Lineare Regression: Schätzung der Beziehung zwischen abhängiger und unabhängigen Variablen.
  • Formel: \( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \epsilon \).
  • Logistische Regression: Modellierung der Wahrscheinlichkeit eines binären Outcomes.
  • Formel: \( \text{logit}(p) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... \).
  • Cox-Regressionsmodell: Analyse von Überlebenszeiten, Einbeziehung von Kovariaten.
  • Formel: \( h(t) = h_0(t) \times e^{\beta_1 x_1 + \beta_2 x_2 + ...} \).
  • Kaplan-Meier-Schätzer: Schätzung der Überlebensfunktion aus Lebensdauerdaten.
  • Log-rank-Test: statistischer Test zum Vergleich von Überlebenskurven.

Identifikation von Biomarkern durch ML

Definition:

Verwendung von maschinellem Lernen (ML) zur Identifizierung von Biomarkern in medizinischen Daten für Diagnose, Prognose und Therapieentscheidungen.

Details:

  • Datenquellen: Genexpressionsdaten, Proteomik-Daten, klinische Daten.
  • Vorverarbeitung: Normalisierung, Skalierung, Bereinigung von Daten.
  • Feature-Selection-Methoden: PCA, t-SNE, Lasso, Random Forest Importance.
  • Typische ML-Modelle: SVM, RF, Neuronale Netze.
  • Evaluierung: Kreuzvalidierung, ROC-Kurven, AUC-Score.
  • Ziele: Früherkennung von Krankheiten, personalisierte Medizin.

Architekturen von Deep Learning Modellen

Definition:

Verschiedene Strukturen und Schichtenanordnungen, die in Deep Learning-Modellen verwendet werden, um spezifische Aufgaben zu lösen.

Details:

  • Fully Connected Networks (FCN): Jede Neuronenschicht ist mit jeder Neuronenschicht der vorherigen Schicht voll verbunden.
  • Convolutional Neural Networks (CNN): Enthalten Faltungsschichten (Convolutional Layers), die für die Erkennung von Mustern und Merkmalen in Bildern verwendet werden.
  • Recurrent Neural Networks (RNN): Verarbeiten sequenzielle Daten, indem sie Informationen über Zeit hinweg speichern; häufig in Spracherkennung und Zeitreihenanalyse genutzt.
  • Long Short-Term Memory Networks (LSTM): Spezialisierte RNNs, die langfristige Abhängigkeiten erfassen können, häufig in NLP verwendet.
  • Autoencoder: Neuronale Netzwerke, die versuchen, Eingabedaten in eine komprimierte, latente Raumdarstellung zu codieren und wieder zu decodieren.
  • Generative Adversarial Networks (GAN): Zwei Netzwerke (Generator und Diskriminator) arbeiten gegeneinander, um realistischere Daten zu erzeugen.
  • Transformer: Architektur, die auf Selbstaufmerksamkeit (Self-Attention) basiert; besonders effektiv in NLP-Anwendungen (z.B. BERT, GPT).
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden