Projekt Maschinelles Lernen und Datenanalytik - Cheatsheet.pdf

Projekt Maschinelles Lernen und Datenanalytik - Cheatsheet
Projekt Maschinelles Lernen und Datenanalytik - Cheatsheet Lineare Regression und Klassifikation Definition: Lineare Regression: Methode zur Modellierung der Beziehung zwischen einer abhängigen und unabhängigen Variable, bezeichnet durch eine lineare Gleichung. Klassifikation: Verfahren zur Einordnung von Datenpunkten in vordefinierte Kategorien. Details: Lineare Regression: Modell: \( y = \beta_0...

© StudySmarter 2024, all rights reserved.

Projekt Maschinelles Lernen und Datenanalytik - Cheatsheet

Lineare Regression und Klassifikation

Definition:

Lineare Regression: Methode zur Modellierung der Beziehung zwischen einer abhängigen und unabhängigen Variable, bezeichnet durch eine lineare Gleichung. Klassifikation: Verfahren zur Einordnung von Datenpunkten in vordefinierte Kategorien.

Details:

  • Lineare Regression:
    • Modell: \( y = \beta_0 + \beta_1 x + \epsilon \)
    • Koeffizienten \(\beta_0\), \(\beta_1\) durch Minimierung des Mittleren Quadratischen Fehlers (MSE) geschätzt.
    • MSE: \( \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 \)
  • Klassifikation:
    • Ziel: Vorhersage der Kategorie (Klasse) eines Datenpunktes anhand seiner Merkmale.
    • Beispielverfahren: k-Nächste-Nachbarn (k-NN), Support Vector Machines (SVM).
    • Qualität: Gemessen durch Genauigkeit (accuracy), Präzision (precision), und Recall.

Clustering und Dimensionalitätsreduktion

Definition:

Clustering: Gruppierung ähnlicher Datenpunkte. Dimensionalitätsreduktion: Reduzierung der Anzahl der Merkmale in einem Datensatz.

Details:

  • Clustering-Algorithmen: K-Means, Hierarchisches Clustering, DBSCAN
  • Dimensionalitätsreduktion: PCA, t-SNE, LDA
  • K-Means: Minimierung der Quadratsumme der Distanzen innerhalb der Cluster
  • PCA: Transformation der Daten zu neuen Achsen, welche die maximale Varianz erklären
  • t-SNE: Visualisierung hochdimensionaler Daten in 2D oder 3D
  • Anwendung: Datenvorverarbeitung, Mustererkennung, Anomaliedetektion

Backpropagation-Methode

Definition:

Backpropagation ist eine Methode des überwachten Lernens in neuronalen Netzen zur Anpassung der Gewichte mittels des Gradientenabstiegsalgorithmus.

Details:

  • Ziel: Minimierung der Kostenfunktion
  • Besteht aus Vorwärts- und Rückwärtsdurchlauf
  • Fehlerberechnung: \( \text{Fehlersignal} = \text{Sollwert} - \text{Istwert} \)
  • Gewichtsanpassung: \( w_{ij} \rightarrow w_{ij} - \beta \frac{\text{dJ}}{\text{d}w_{ij}} \)
  • \( \beta \) ist die Lernrate
  • Kettenregel zur Berechnung des Gradienten
  • Notwendig für das Training tiefer neuronaler Netze

Convolutional Neural Networks (CNN)

Definition:

Neurales Netzwerk, spezialisiert auf die Verarbeitung von Bilddaten durch Verwendung von Faltungen.

Details:

  • Besteht aus Convolutional Layer, Pooling Layer und Fully Connected Layer.
  • Convolutional Layer: wendet Faltungen mit Filtern (Kern) auf Eingabedaten an, um Merkmale zu extrahieren.
  • Formel für Faltung: \( (I * K)(i, j) = \sum_m \sum_n I(m, n) \, K(i-m, j-n) \)
  • Pooling Layer: reduziert die Dimensionsgröße, oft durch Max-Pooling oder Average-Pooling.
  • Fully Connected Layer: klassisches neuronales Netz, das auf gefaltete und zusammengefasste Merkmale angewendet wird.
  • ReLU-Aktivierungsfunktion: \( f(x) = \max(0, x) \)
  • Wird häufig in Bildklassifikation, Objekterkennung und Segmentierung verwendet.

Recurrent Neural Networks (RNN)

Definition:

RNNs sind neuronale Netze, die Sequenzen von Daten verarbeiten und Informationen über frühere Eingaben durch interne Zustände speichern.

Details:

  • Speziell für sequentielle oder zeitabhängige Aufgaben wie Sprachverarbeitung, Zeitreihenprognosen geeignet.
  • Wiederkehrende Verbindungen ermöglichen die Verarbeitung von früheren Zuständen, formalisiert als: \ h_t = f(W_h x_t + U_h h_{t-1} + b_h)
  • Varianten: LSTMs und GRUs zur Überwindung des Vanishing Gradient Problems.
  • Training durch Backpropagation Through Time (BPTT).

Datenbereinigung und Umgang mit fehlenden Werten

Definition:

Verfahren zur Vorbereitung und Korrektur von Daten, inklusive Umgang mit unvollständigen Datensätzen.

Details:

  • Datenbereinigung: Entfernen oder Korrigieren fehlerhafter Daten.
  • Umgang mit fehlenden Werten:
    • Entfernen von Zeilen/Spalten: Bei zu vielen fehlenden Werten.
    • Ersetzen durch Durchschnitt/Median: Bei numerischen Daten \text{(z.B. Mittelwert)}.
    • Ersetzen durch Modus: Bei kategorialen Daten.
    • Vorhersage fehlender Werte durch andere Algorithmen.
  • Wichtige Bibliotheken: pandas (Python).

Kreuzvalidierung und Bootstrapping

Definition:

Kreuzvalidierung: Technik zur Bewertung der Modellleistung durch Aufteilung der Daten in Trainings- und Testmengen, erlaubt eine robustere Schätzung der Modellgeneralisation. Bootstrapping: Samplingverfahren zur Schätzung der Verteilung durch wiederholtes Ziehen von Stichproben mit Zurücklegen aus den Originaldaten.

Details:

  • Kreuzvalidierung:
    • k-fache Kreuzvalidierung: Daten in k Teilmengen aufteilen, nacheinander jede Teilmenge als Testdaten nutzen, Rest als Trainingsdaten.
    • Ziel: Varianz und Bias der Modellleistung schätzen.
  • Bootstrapping:
    • Stichproben mit Zurücklegen: Erlaubt mehrfaches Ziehen derselben Beobachtung.
    • Ziel: Vertrauensintervalle für Schätzwerte und Modellparameter berechnen.
    • Anzahl Resamplings: Typischerweise B = 1000 oder mehr.

Metriken zur Modellbewertung: Accuracy, Precision, Recall und F1-Score

Definition:

Metriken zur Modellbewertung: Bewertung der Leistung eines maschinellen Lernmodells.

Details:

  • Accuracy: \(\text{Accuracy} = \frac{\text{Anzahl der richtigen Vorhersagen}}{\text{Gesamtanzahl der Vorhersagen}}\)
  • Precision (Genauigkeit): \(\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}\)
  • Recall (Trefferquote): \(\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}\)
  • F1-Score: Harmonisches Mittel von Precision und Recall: \(\text{F1-Score} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}\)
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden