Projekt Maschinelles Lernen und Datenanalytik - Cheatsheet
Lineare Regression und Klassifikation
Definition:
Lineare Regression: Methode zur Modellierung der Beziehung zwischen einer abhängigen und unabhängigen Variable, bezeichnet durch eine lineare Gleichung. Klassifikation: Verfahren zur Einordnung von Datenpunkten in vordefinierte Kategorien.
Details:
- Lineare Regression:
- Modell: \( y = \beta_0 + \beta_1 x + \epsilon \)
- Koeffizienten \(\beta_0\), \(\beta_1\) durch Minimierung des Mittleren Quadratischen Fehlers (MSE) geschätzt.
- MSE: \( \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 \)
- Klassifikation:
- Ziel: Vorhersage der Kategorie (Klasse) eines Datenpunktes anhand seiner Merkmale.
- Beispielverfahren: k-Nächste-Nachbarn (k-NN), Support Vector Machines (SVM).
- Qualität: Gemessen durch Genauigkeit (accuracy), Präzision (precision), und Recall.
Clustering und Dimensionalitätsreduktion
Definition:
Clustering: Gruppierung ähnlicher Datenpunkte. Dimensionalitätsreduktion: Reduzierung der Anzahl der Merkmale in einem Datensatz.
Details:
- Clustering-Algorithmen: K-Means, Hierarchisches Clustering, DBSCAN
- Dimensionalitätsreduktion: PCA, t-SNE, LDA
- K-Means: Minimierung der Quadratsumme der Distanzen innerhalb der Cluster
- PCA: Transformation der Daten zu neuen Achsen, welche die maximale Varianz erklären
- t-SNE: Visualisierung hochdimensionaler Daten in 2D oder 3D
- Anwendung: Datenvorverarbeitung, Mustererkennung, Anomaliedetektion
Backpropagation-Methode
Definition:
Backpropagation ist eine Methode des überwachten Lernens in neuronalen Netzen zur Anpassung der Gewichte mittels des Gradientenabstiegsalgorithmus.
Details:
- Ziel: Minimierung der Kostenfunktion
- Besteht aus Vorwärts- und Rückwärtsdurchlauf
- Fehlerberechnung: \( \text{Fehlersignal} = \text{Sollwert} - \text{Istwert} \)
- Gewichtsanpassung: \( w_{ij} \rightarrow w_{ij} - \beta \frac{\text{dJ}}{\text{d}w_{ij}} \)
- \( \beta \) ist die Lernrate
- Kettenregel zur Berechnung des Gradienten
- Notwendig für das Training tiefer neuronaler Netze
Convolutional Neural Networks (CNN)
Definition:
Neurales Netzwerk, spezialisiert auf die Verarbeitung von Bilddaten durch Verwendung von Faltungen.
Details:
- Besteht aus Convolutional Layer, Pooling Layer und Fully Connected Layer.
- Convolutional Layer: wendet Faltungen mit Filtern (Kern) auf Eingabedaten an, um Merkmale zu extrahieren.
- Formel für Faltung: \( (I * K)(i, j) = \sum_m \sum_n I(m, n) \, K(i-m, j-n) \)
- Pooling Layer: reduziert die Dimensionsgröße, oft durch Max-Pooling oder Average-Pooling.
- Fully Connected Layer: klassisches neuronales Netz, das auf gefaltete und zusammengefasste Merkmale angewendet wird.
- ReLU-Aktivierungsfunktion: \( f(x) = \max(0, x) \)
- Wird häufig in Bildklassifikation, Objekterkennung und Segmentierung verwendet.
Recurrent Neural Networks (RNN)
Definition:
RNNs sind neuronale Netze, die Sequenzen von Daten verarbeiten und Informationen über frühere Eingaben durch interne Zustände speichern.
Details:
- Speziell für sequentielle oder zeitabhängige Aufgaben wie Sprachverarbeitung, Zeitreihenprognosen geeignet.
- Wiederkehrende Verbindungen ermöglichen die Verarbeitung von früheren Zuständen, formalisiert als: \ h_t = f(W_h x_t + U_h h_{t-1} + b_h)
- Varianten: LSTMs und GRUs zur Überwindung des Vanishing Gradient Problems.
- Training durch Backpropagation Through Time (BPTT).
Datenbereinigung und Umgang mit fehlenden Werten
Definition:
Verfahren zur Vorbereitung und Korrektur von Daten, inklusive Umgang mit unvollständigen Datensätzen.
Details:
- Datenbereinigung: Entfernen oder Korrigieren fehlerhafter Daten.
- Umgang mit fehlenden Werten:
- Entfernen von Zeilen/Spalten: Bei zu vielen fehlenden Werten.
- Ersetzen durch Durchschnitt/Median: Bei numerischen Daten \text{(z.B. Mittelwert)}.
- Ersetzen durch Modus: Bei kategorialen Daten.
- Vorhersage fehlender Werte durch andere Algorithmen.
- Wichtige Bibliotheken: pandas (Python).
Kreuzvalidierung und Bootstrapping
Definition:
Kreuzvalidierung: Technik zur Bewertung der Modellleistung durch Aufteilung der Daten in Trainings- und Testmengen, erlaubt eine robustere Schätzung der Modellgeneralisation. Bootstrapping: Samplingverfahren zur Schätzung der Verteilung durch wiederholtes Ziehen von Stichproben mit Zurücklegen aus den Originaldaten.
Details:
- Kreuzvalidierung:
- k-fache Kreuzvalidierung: Daten in k Teilmengen aufteilen, nacheinander jede Teilmenge als Testdaten nutzen, Rest als Trainingsdaten.
- Ziel: Varianz und Bias der Modellleistung schätzen.
- Bootstrapping:
- Stichproben mit Zurücklegen: Erlaubt mehrfaches Ziehen derselben Beobachtung.
- Ziel: Vertrauensintervalle für Schätzwerte und Modellparameter berechnen.
- Anzahl Resamplings: Typischerweise B = 1000 oder mehr.
Metriken zur Modellbewertung: Accuracy, Precision, Recall und F1-Score
Definition:
Metriken zur Modellbewertung: Bewertung der Leistung eines maschinellen Lernmodells.
Details:
- Accuracy: \(\text{Accuracy} = \frac{\text{Anzahl der richtigen Vorhersagen}}{\text{Gesamtanzahl der Vorhersagen}}\)
- Precision (Genauigkeit): \(\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}\)
- Recall (Trefferquote): \(\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}\)
- F1-Score: Harmonisches Mittel von Precision und Recall: \(\text{F1-Score} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}\)