Machine Learning for Engineers I - Introduction to Methods and Tools - Cheatsheet
Geschichte und Entwicklung des maschinellen Lernens
Definition:
Geschichte und Entwicklung des maschinellen Lernens.
Details:
- 1950er: Alan Turing stellt den Turing-Test vor.
- 1957: Frank Rosenblatt entwickelt das Perzeptron.
- 1960er-70er: Erste neuronale Netzwerke und Rückschläge (KI-Winter).
- 1980er: Einführung von Backpropagation in neuronalen Netzwerken.
- 1990er: Aufschwung durch größere Datenmengen und Rechenleistung.
- 2006: Durchbruch im Deep Learning, Geoffrey Hinton entwickelt Deep Belief Networks.
- 2012: AlexNet gewinnt ImageNet-Wettbewerb.
- 2010er-Heute: Breite Anwendung in Industrie und Forschung durch Fortschritte in Big Data und GPUs.
Konzepte von Training und Testen im überwachten Lernen
Definition:
Trennung der Daten in Trainings- und Testdatensätze zur Bewertung der Modellleistung.
Details:
- Training: Modell wird auf Trainingsdaten fit gemacht.
- Testen: Modellleistung wird auf zuvor ungesehenen Testdaten bewertet.
- Verhältnis: Üblich sind 80% Training, 20% Testen.
- Validierung: Separate Validierungsdaten zur Hyperparameteroptimierung.
- Kreuzvalidierung zur robusten Leistungsmessung.
- Fehlermetriken wie MSE, Accuracy, Precision, Recall.
- Überfitting vermeiden durch Regularisierung, Cross-Validation.
Kernkonzepte des Clustering und Dimensionalitätsreduktion im unüberwachten Lernen
Definition:
Zusammenfassen und Extrahieren der Struktur in Daten ohne vorherige Labels. Clustering gruppiert Datenpunkte, Dimensionalitätsreduktion verringert die Anzahl der Merkmale.
Details:
- Clustering: K-means, Hierarchical Clustering, DBSCAN
- Dimensionalitätsreduktion: PCA, t-SNE, LDA
- Ziel: Muster und Strukturen in den Daten erkennen
- Clustering: Gruppierung basierend auf Ähnlichkeit (z. B. geringere Distanz)
- PCA: Reduktion auf Basis der Varianz
- t-SNE: Nichtlineare Reduktion zur Visualisierung
- Anwendung: Datenvorverarbeitung, Visualisierung, Feature Selection
Methoden der Merkmalsextraktion und -auswahl
Definition:
Techniken zur Auswahl und Extraktion relevanter Merkmale aus Rohdaten zur Verbesserung der Modellleistung.
Details:
- Ziel: Reduktion der Dimensionalität, Verbesserung der Modellgenauigkeit, Verringerung der Überanpassung
- Merkmalsextraktion: Transformation der Rohdaten in Merkmale z.B. PCA, LDA
- Merkmalsauswahl: Auswahl relevanter Merkmale basierend auf bestimmten Kriterien z.B. Filtermethoden (Chi-Quadrat-Test), Wrappermethoden, Einbettungsmethoden (LASSO)
- Filtermethoden: Unabhängig vom Modell - Auswahl durch statistische Tests
- Wrappermethoden: Nutzung des Modells zur Bewertung von Merkmalskombinationen
- Einbettungsmethoden: Auswahl während des Trainingsprozesses (z.B. Regularisierung)
- Herausforderung: Finden des richtigen Gleichgewichts zwischen Informationsgehalt und Redundanz
Kreuzvalidierung und Hyperparameter-Tuning
Definition:
Kreuzvalidierung: Methode zur Bewertung der Modellleistung. Hyperparameter-Tuning: Optimierung von Modellparametern.
Details:
- Kreuzvalidierung unterteilt Daten in k-Falten: Ein Teil als Testdaten, restliche als Trainingsdaten.
- Sicherstellung, dass Modell stabil ist und nicht überanpasst (Overfitting).
- k = 5 oder 10 häufig verwendet.
- Generiert durchschnittliche Metriken über alle Falten: \[ \text{Accuracy}_{avg} = \frac{1}{k} \sum_{i=1}^{k} \text{Accuracy}_i \]
- Grid Search oder Random Search zur Parametertuning.
- Wichtige Hyperparameter: Lernrate, Anzahl der Epochen, Batch-Größe, etc.
- Ziel: Modelloptimierung ohne separate Validierungsdatenmenge.
Bewertung der Modellleistung mit unterschiedlichen Metriken
Definition:
Bewertung der Modellleistung mit unterschiedlichen Metriken; vergleicht und überprüft die Genauigkeit, Präzision und Effizienz von Maschinenlernmodellen anhand spezifischer Messgrößen.
Details:
- Genauigkeit (Accuracy): \(\text{Accuracy} = \frac{\text{Anzahl der korrekten Vorhersagen}}{\text{Anzahl der Gesamtvorhersagen}}\)
- Präzision (Precision): \[ \text{Precision} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP)} + \text{False Positives (FP)}} \]
- Recall (Rückruf): \[ \text{Recall} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP)} + \text{False Negatives (FN)}} \]
- F1-Score: \[ \text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} \]
- ROC-AUC: Fläche unter der Receiver Operating Characteristic-Kurve; bewertet das Trennungsvermögen des Modells.
- Mean Absolute Error (MAE): \[ \text{MAE} = \frac{1}{n} \times \text{Summe der Absoluten Fehler} \]
- Mean Squared Error (MSE): \[ \text{MSE} = \frac{1}{n} \times \text{Summe der Quadrierten Fehler} \]
Techniken der Datenvorverarbeitung und -bereinigung
Definition:
Datenvorverarbeitung und -bereinigung sind essenziell zur Verbesserung der Datenqualität vor der Anwendung von Machine-Learning-Methoden.
Details:
- Datenreinigung: Entfernung von ungültigen, duplizierten oder unvollständigen Daten.
- Outlier-Erkennung: Identifikation und Behandlung von Ausreißern.
- Daten-Normalisierung und -Skalierung: Transformation der Daten auf einen einheitlichen Maßstab.
- Feature-Engineering: Erzeugung neuer Merkmale aus bestehenden Daten.
- Datenimputation: Auffüllen fehlender Werte durch Methoden wie Mittelwert, Median oder kNN.
- Encoding: Umwandlung kategorialer Daten in numerische Formate (z.B. One-Hot-Encoding).
Vergleich von Modellleistung mit ROC-Kurven und AUC
Definition:
Vergleich von Modellleistung mit ROC-Kurven und AUC.
Details:
- ROC-Kurve (Receiver Operating Characteristic): Graph zur Darstellung der Modellleistung; Achsen: TPR (True Positive Rate) vs. FPR (False Positive Rate)
- AUC (Area Under the Curve): Fläche unter der ROC-Kurve, Maß für die Güte des Modells
- AUC-Werte: 0.5 = Zufall, 1.0 = perfektes Modell
- Berechnung TPR: \text{TPR} = \frac{TP}{TP + FN}
- Berechnung FPR: \text{FPR} = \frac{FP}{FP + TN}