Introduction to Machine Learning - Cheatsheet
Klassifikation und Regression
Definition:
Klassifikation: Vorhersage diskreter Klassenlabels; Regression: Vorhersage kontinuierlicher Werte.
Details:
- Klassifikation: Zuordnung zu Klassen, z.B. Spam/kein Spam.
- Regression: Vorhersage von Werten, z.B. Temperaturvorhersage.
- Beispiel für Klassifikation: Support Vector Machines(SVM)
- Beispiel für Regression: Lineare Regression
- Klassifikationsmetrik: Genauigkeit
- Regressionsmetrik: Mittlerer quadratischer Fehler (MSE)
Modellevaluierung und Kreuzvalidierung
Definition:
Bewertung der Modelleffektivität und -genauigkeit; Überprüfung der Verallgemeinerbarkeit auf unabhängige Datensätze.
Details:
- Gängige Metriken zur Modellevaluierung: Accuracy, Precision, Recall, F1-Score
- Kreuzvalidierung: Technik zur besseren Abschätzung der Modellleistung
- k-Fache Kreuzvalidierung: Datensatz wird in k Teile aufgeteilt, k-mal trainiert und getestet; Mittelwert der Ergebnisse
- Formel für Fehlerabschätzung: \[ \text{CV}_{(k)} = \frac{1}{k} \times \text{Summe der Fehler} \]
- Ziel: Überanpassung (Overfitting) vermeiden und Generalisierungsfähigkeiten verbessern
Clusteranalyse
Definition:
Clusteranalyse: Verfahren, um Datenobjekte in Gruppen (Cluster) zu unterteilen, sodass Objekte innerhalb eines Clusters ähnlicher zueinander sind als zu denen in anderen Clustern.
Details:
- Ziel: Erkennung von Strukturen und Mustern in den Daten
- Typen von Clustermethoden: Partitionierend (z. B. k-Means), hierarchisch (z. B. agglomerativ)
- Abstandsmaße: z. B. euklidische Distanz, Manhattan-Distanz
- Bewertung der Clusterqualität: Silhouettenwert, Dunn-Index
- k-Means-Algorithmus: Minimierung der Summe der quadratischen Distanzen zwischen den Objekten und den Clusterzentroiden
- Hierarchische Clusteranalyse: Dendrogramm zur Visualisierung
Q-Learning Algorithmus
Definition:
Q-Learning ist ein modellfreies, verstärkendes Lernverfahren, das verwendet wird, um optimale Entscheidungsstrategien für ein gegebenes Markov-Entscheidungsproblem zu finden.
Details:
- Zielt darauf ab, die Q-Funktion zu erlernen: $$ Q(s, a) = \text{Erwartungswert [Gesamtbelohnung | Zustand } s, \text{ Aktion } a \text{]} $$
- Aktualisierungsregel für Q-Werte: $$ Q(s, a) \rightarrow Q(s, a) + \text{ Lernrate } \times \bigg( \text{Belohnung } + \text{ Diskontfaktor } \times \text{max}_{a'} Q(s', a') - Q(s, a) \bigg) $$
- Typische Hyperparameter: Lernrate (\text{learning rate}, \alpha), Diskontfaktor (\text{discount factor}, \gamma), Entdeckungsrate (\text{exploration rate}, \epsilon)
Backpropagation Algorithmus
Definition:
Algorithmus zur Optimierung von neuronalen Netzen durch Anpassung der Gewichte mittels Gradientenabstieg.
Details:
- wird zur Minimierung der Fehlerfunktion verwendet
- Berechnung des Gradienten des Fehlers bezüglich der Gewichte
- Verwendung der Kettenregel zur Berechnung der Gradienten
- Iterativer Prozess: Vorwärts- und Rückwärtsausbreitung
- Aktualisierung der Gewichte:
w_{new} = w_{old} - \eta \frac{\partial L}{\partial w}
- \( \eta \): Lernrate
Decision Trees: Information Gain und Gini-Index
Definition:
Kernmetriken zur Bestimmung der Qualität von Splits in Entscheidungsbäumen.
Details:
- Information Gain (Informationsgewinn): Misst die Reduktion der Unsicherheit in Bezug auf die Klassifikation.
- Berechnung: \[IG(D, A) = Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} * Entropy(D_v)\]
- Gini-Index: Misst die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Element falsch klassifiziert wird.
- Berechnung: \[Gini(D) = 1 - \sum_{i=1}^{c} p_i^2\]
Random Forests
Definition:
Ensemble-Lernverfahren, das mehrere Entscheidungsbäume kombiniert, um die Vorhersagegenauigkeit zu verbessern.
Details:
- Jeder Baum wird auf einer zufälligen Teilmenge der Daten und Merkmale trainiert.
- Vorhersagen der Bäume werden durch Mehrheitsabstimmung (Klassifikation) oder Mittelwert (Regression) aggregiert.
- Wichtig: Vermeidung von Overfitting durch die Kombination vieler schwacher Lernalgorithmen zu einem starken Ensemble.
- Formel: \hat{y} = \frac{1}{N} \sum_{i=1}^{N} h_i(x), wobei \hat{y} der aggregierte Output und h_i(x) der Output des i-ten Baums ist.
Gradient Boosting Trees
Definition:
Ensemble-Methode, die schwache Modelle (oft Entscheidungsbäume) sequentiell trainiert, wobei jedes neue Modell die Fehler des vorhergehenden korrigiert.
Details:
- Algorithmus: Ausführung in Sequenzen, jede Sequenz korrigiert Fehler des Vorgängers.
- Verlustfunktion: Meistens quadratische Fehler, flexibel für andere.
- Baumauswahl: Entscheidungsbäume als Basis.
- Boosting-Parameter: Lernrate \(\eta\), Anzahl der Bäume.
- Overfitting-Risiko: Gut für kleinere Datensets, Gefahr bei zu vielen Bäumen.
- Modell-Interpretation: Additive Modellkombination, schwerer als Einzelbäume zu interpretieren.
- Implementierungen: XGBoost, LightGBM, CatBoost.