Introduction to Machine Learning - Cheatsheet.pdf

Introduction to Machine Learning - Cheatsheet
Introduction to Machine Learning - Cheatsheet Klassifikation und Regression Definition: Klassifikation: Vorhersage diskreter Klassenlabels; Regression: Vorhersage kontinuierlicher Werte. Details: Klassifikation: Zuordnung zu Klassen, z.B. Spam/kein Spam. Regression: Vorhersage von Werten, z.B. Temperaturvorhersage. Beispiel für Klassifikation: Support Vector Machines(SVM) Beispiel für Regression: ...

© StudySmarter 2024, all rights reserved.

Introduction to Machine Learning - Cheatsheet

Klassifikation und Regression

Definition:

Klassifikation: Vorhersage diskreter Klassenlabels; Regression: Vorhersage kontinuierlicher Werte.

Details:

  • Klassifikation: Zuordnung zu Klassen, z.B. Spam/kein Spam.
  • Regression: Vorhersage von Werten, z.B. Temperaturvorhersage.
  • Beispiel für Klassifikation: Support Vector Machines(SVM)
  • Beispiel für Regression: Lineare Regression
  • Klassifikationsmetrik: Genauigkeit
  • Regressionsmetrik: Mittlerer quadratischer Fehler (MSE)

Modellevaluierung und Kreuzvalidierung

Definition:

Bewertung der Modelleffektivität und -genauigkeit; Überprüfung der Verallgemeinerbarkeit auf unabhängige Datensätze.

Details:

  • Gängige Metriken zur Modellevaluierung: Accuracy, Precision, Recall, F1-Score
  • Kreuzvalidierung: Technik zur besseren Abschätzung der Modellleistung
  • k-Fache Kreuzvalidierung: Datensatz wird in k Teile aufgeteilt, k-mal trainiert und getestet; Mittelwert der Ergebnisse
  • Formel für Fehlerabschätzung: \[ \text{CV}_{(k)} = \frac{1}{k} \times \text{Summe der Fehler} \]
  • Ziel: Überanpassung (Overfitting) vermeiden und Generalisierungsfähigkeiten verbessern

Clusteranalyse

Definition:

Clusteranalyse: Verfahren, um Datenobjekte in Gruppen (Cluster) zu unterteilen, sodass Objekte innerhalb eines Clusters ähnlicher zueinander sind als zu denen in anderen Clustern.

Details:

  • Ziel: Erkennung von Strukturen und Mustern in den Daten
  • Typen von Clustermethoden: Partitionierend (z. B. k-Means), hierarchisch (z. B. agglomerativ)
  • Abstandsmaße: z. B. euklidische Distanz, Manhattan-Distanz
  • Bewertung der Clusterqualität: Silhouettenwert, Dunn-Index
  • k-Means-Algorithmus: Minimierung der Summe der quadratischen Distanzen zwischen den Objekten und den Clusterzentroiden
  • Hierarchische Clusteranalyse: Dendrogramm zur Visualisierung

Q-Learning Algorithmus

Definition:

Q-Learning ist ein modellfreies, verstärkendes Lernverfahren, das verwendet wird, um optimale Entscheidungsstrategien für ein gegebenes Markov-Entscheidungsproblem zu finden.

Details:

  • Zielt darauf ab, die Q-Funktion zu erlernen: $$ Q(s, a) = \text{Erwartungswert [Gesamtbelohnung | Zustand } s, \text{ Aktion } a \text{]} $$
  • Aktualisierungsregel für Q-Werte: $$ Q(s, a) \rightarrow Q(s, a) + \text{ Lernrate } \times \bigg( \text{Belohnung } + \text{ Diskontfaktor } \times \text{max}_{a'} Q(s', a') - Q(s, a) \bigg) $$
  • Typische Hyperparameter: Lernrate (\text{learning rate}, \alpha), Diskontfaktor (\text{discount factor}, \gamma), Entdeckungsrate (\text{exploration rate}, \epsilon)

Backpropagation Algorithmus

Definition:

Algorithmus zur Optimierung von neuronalen Netzen durch Anpassung der Gewichte mittels Gradientenabstieg.

Details:

  • wird zur Minimierung der Fehlerfunktion verwendet
  • Berechnung des Gradienten des Fehlers bezüglich der Gewichte
  • Verwendung der Kettenregel zur Berechnung der Gradienten
  • Iterativer Prozess: Vorwärts- und Rückwärtsausbreitung
  • Aktualisierung der Gewichte: w_{new} = w_{old} - \eta \frac{\partial L}{\partial w}
  • \( \eta \): Lernrate

Decision Trees: Information Gain und Gini-Index

Definition:

Kernmetriken zur Bestimmung der Qualität von Splits in Entscheidungsbäumen.

Details:

  • Information Gain (Informationsgewinn): Misst die Reduktion der Unsicherheit in Bezug auf die Klassifikation.
  • Berechnung: \[IG(D, A) = Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} * Entropy(D_v)\]
  • Gini-Index: Misst die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Element falsch klassifiziert wird.
  • Berechnung: \[Gini(D) = 1 - \sum_{i=1}^{c} p_i^2\]

Random Forests

Definition:

Ensemble-Lernverfahren, das mehrere Entscheidungsbäume kombiniert, um die Vorhersagegenauigkeit zu verbessern.

Details:

  • Jeder Baum wird auf einer zufälligen Teilmenge der Daten und Merkmale trainiert.
  • Vorhersagen der Bäume werden durch Mehrheitsabstimmung (Klassifikation) oder Mittelwert (Regression) aggregiert.
  • Wichtig: Vermeidung von Overfitting durch die Kombination vieler schwacher Lernalgorithmen zu einem starken Ensemble.
  • Formel: \hat{y} = \frac{1}{N} \sum_{i=1}^{N} h_i(x), wobei \hat{y} der aggregierte Output und h_i(x) der Output des i-ten Baums ist.

Gradient Boosting Trees

Definition:

Ensemble-Methode, die schwache Modelle (oft Entscheidungsbäume) sequentiell trainiert, wobei jedes neue Modell die Fehler des vorhergehenden korrigiert.

Details:

  • Algorithmus: Ausführung in Sequenzen, jede Sequenz korrigiert Fehler des Vorgängers.
  • Verlustfunktion: Meistens quadratische Fehler, flexibel für andere.
  • Baumauswahl: Entscheidungsbäume als Basis.
  • Boosting-Parameter: Lernrate \(\eta\), Anzahl der Bäume.
  • Overfitting-Risiko: Gut für kleinere Datensets, Gefahr bei zu vielen Bäumen.
  • Modell-Interpretation: Additive Modellkombination, schwerer als Einzelbäume zu interpretieren.
  • Implementierungen: XGBoost, LightGBM, CatBoost.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden