Introduction to Machine Learning - Cheatsheet
Definition und Anwendung von maschinellem Lernen in der Informatik
Definition:
Maschinelles Lernen (ML): Teilgebiet der KI, bei dem Algorithmen Muster in Daten erkennen und Entscheidungen basierend auf diesen lernen.
Details:
- Supervised Learning: Lernen mit gelabelten Daten (z.B. Klassifikation, Regression).
- Unsupervised Learning: Lernen ohne gelabelte Daten (z.B. Clustering, Dimensionsreduktion).
- Reinforcement Learning: Lernen durch Belohnung und Bestrafung.
- Anwendungsbereiche: Bilderkennung, Sprachverarbeitung, Vorhersagemodelle, Empfehlungssysteme.
- Mathematische Grundlagen: Lineare Algebra, Wahrscheinlichkeitsrechnung, Statistik.
- Verfahren: Neuronale Netze, Entscheidungsbäume, SVM, K-Means, PCA.
Lineare Regression und Logistische Regression: Konzepte und Anwendungen
Definition:
Lineare und logistische Regression: grundlegende Methoden in der Statistik zur Modellierung und Vorhersage von Daten.
Details:
- Lineare Regression: Ziel ist, eine lineare Beziehung zwischen unabhängigen Variablen \(X\) und einer abhängigen Variable \(Y\) zu finden: \(Y = \beta_0 + \beta_1 X + \text{Fehler}\).
- Schätzer für \(\beta_0\) und \(\beta_1\) werden durch Minimierung der Summe der quadrierten Abweichungen (OLS) gefunden.
- Logistische Regression: Modellierung der Wahrscheinlichkeit eines binären Outcomes mithilfe einer logistischen Funktion: \(\text{logit}(P) = \beta_0 + \beta_1 X\).
- Outcome wird als 0 oder 1 kodiert; logistische Funktion erlaubt Wahrscheinlichkeiten im Bereich (0, 1).
- Anwendungen: Vorhersage, Klassifikation, und Risikoanalyse in verschiedenen Domänen wie Medizin, Finanzen und Marketing.
Entscheidungsbäume und Random Forests: Aufbau und Evaluierung
Definition:
Entscheidungsbäume sind baumartige Diagramme zur Entscheidungsfindung; Random Forests sind Ensembles von Entscheidungsbäumen zur Verbesserung der Vorhersagegenauigkeit.
Details:
- Entscheidungsbäume:
- Knoten repräsentieren Attribut-Tests
- Kanten repräsentieren Testergebnisse
- Blätter repräsentieren Klassifikationen oder Vorhersagen
- Aufbau:
- Splitting-Kriterium (z.B. Gini-Index, Informationsgewinn)
- Rekursive Teilung des Datensatzes
- Pruning (Beschneidung, um Overfitting zu vermeiden)
- Evaluierung:
- Accuracy (Genauigkeit)
- Precision, Recall, F1-Score
- Cross-Validation
- Random Forest:
- Ensemble aus vielen Entscheidungsbäumen
- Bagging (Bootstrap Aggregating)
- Reduziert Varianz und Overfitting
- Evaluierung:
- OOB-Error (Out-Of-Bag Fehler)
- Feature Importance
K-Means und Hierarchisches Clustering: Verfahren und Unterschiede
Definition:
K-Means und Hierarchisches Clustering sind zwei gängige Clusteranalyseverfahren zur Gruppierung von Datensätzen in Clustern.
Details:
- K-Means: Partitionierungsverfahren, minimiert die Summe der quadratischen Abstände der Datenpunkte zu den Clusterzentroiden.
- Algorithmus: Initialisierung k Clusterzentren, Zuordnung der Punkte, Update der Zentren, Wiederholung bis Konvergenz.
- Zahl der Cluster k muss vorab festgelegt werden.
- Hierarchisches Clustering: Erstellung einer Hierarchie von Clustern, Ausgabe in Dendrogramm.
- Agglomerativ: Beginnt mit jedem Punkt als eigenem Cluster, fusioniert Cluster schrittweise.
- Divisiv: Beginnt mit einem einzigen Cluster, spaltet Cluster schrittweise.
- Keine Vorabfestlegung der Clusteranzahl notwendig.
- Unterschiede:
- K-Means: Effizient für große Datensätze, erfordert k vorab.
- Hierarchisch: Besser für kleine bis mittlere Datensätze, eignet sich zur Analyse der Clusterstruktur.
Principle Component Analysis (PCA) für die Dimensionalitätsreduktion
Definition:
Reduktion der Dimensionen eines Datensatzes durch Transformation auf neue Achsen (Hauptkomponenten), die maximale Varianz erklären.
Details:
- Ziel: Vereinfachung des Modells, Reduktion von Overfitting, Visualisierung
- Berechnung: Eigenvektoren und Eigenwerte der Kovarianzmatrix
- Hauptkomponenten: Sortiere Eigenvektoren nach abnehmenden Eigenwerten
- Transformation: Projiziere Daten auf die ausgewählten Hauptkomponenten
- Formeln: 1. Kovarianzmatrix: \( C = \frac{1}{n-1} \, (X - \bar{X})^T (X - \bar{X}) \) 2. Eigenwertproblem: \( C v = \lambda v \)
- Varianzanteil: \( \text{Varianzanteil} = \frac{\lambda_i}{\sum_{j=1}^{d} \lambda_j} \)
- Gesamtvarianz erklärbar: Wähle Anzahl der Hauptkomponenten, die gewünschten Varianzanteil erklären
Neuronale Netze und Deep Learning: Architekturen und Training
Definition:
Neuronale Netze: computergestützte Modelle, die die Funktionsweise des menschlichen Gehirns nachahmen. Deep Learning: spezielles maschinelles Lernen, das tiefe Netzarchitekturen verwendet, um komplexe Muster zu erkennen.
Details:
- Architekturen:
- Feedforward Neural Networks (FNNs): keine Rückkopplungsschleifen
- Convolutional Neural Networks (CNNs): gut bei Bild- und Videodaten
- Recurrent Neural Networks (RNNs): geeignet für sequenzielle Daten
- Generative Adversarial Networks (GANs): generieren neue Daten anhand vorhandener
- Training:
- Loss Function: misst Fehler zwischen vorhergesagten und tatsächlichen Werten, z.B. Kreuzentropieverlust für Klassifikation
- Backpropagation: Optimierungsmethode zur Anpassung der Netzwerkgewichte
- Optimierer: Algorithmen zur Gewichtsaktualisierung, z.B. SGD, Adam
- Hyperparameter: z.B. Lernrate, Anzahl der Schichten
Backpropagation-Algorithmus für das Training neuronaler Netze
Definition:
Backpropagation: Algorithmus zur Berechnung der Gradienten in neuronalen Netzen, um die Gewichte zu aktualisieren und den Fehler zu minimieren.
Details:
- Ziel: Minimierung des Fehlers (Loss-Funktion)
- Berechnung: Gradienten des Fehlers bezüglich der Gewichte
- Optimierungsverfahren: Häufig Gradient Descent
- Schritte: Vorwärtsdurchlauf, Fehlerberechnung, Rückwärtsdurchlauf
- Differenzierung: Kettenregel zur Berechnung der Gradienten