Pattern Recognition - Cheatsheet.pdf

Pattern Recognition - Cheatsheet
Pattern Recognition - Cheatsheet Dimensionsreduktionstechniken, wie Principal Component Analysis (PCA) Definition: Dimensionsreduktionstechniken verringern die Anzahl der Merkmale in einem Datensatz, um die Anzahl der notwendigen Berechnungen zu reduzieren und die Verarbeitungszeit zu verkürzen. Sie helfen auch, Overfitting zu minimieren und die Datenvisualisierung zu verbessern. Eine verbreitete ...

© StudySmarter 2024, all rights reserved.

Pattern Recognition - Cheatsheet

Dimensionsreduktionstechniken, wie Principal Component Analysis (PCA)

Definition:

Dimensionsreduktionstechniken verringern die Anzahl der Merkmale in einem Datensatz, um die Anzahl der notwendigen Berechnungen zu reduzieren und die Verarbeitungszeit zu verkürzen. Sie helfen auch, Overfitting zu minimieren und die Datenvisualisierung zu verbessern. Eine verbreitete Methode ist die Principal Component Analysis (PCA).

Details:

  • PCA: lineare Technik, transformiert Daten in einen neuen Raum mit weniger Dimensionen
  • Hauptkomponenten maximieren die Varianz der Daten
  • Schritte: Zentrieren der Daten, Berechnung der Kovarianzmatrix, Eigenvektoren und -werte bestimmen, Projektion der Daten auf die Eigenvektoren
  • Formeln: Zentrische Daten: \mathbf{X} = \mathbf{X} - \mathbf{\mu}, Kovarianzmatrix: \mathbf{C} = \frac{1}{N-1}(\mathbf{X}^T\mathbf{X}), Eigenvektoren und -werte: \mathbf{C}\mathbf{v}_i = \lambda_i\mathbf{v}_i, Projektion: \mathbf{Y} = \mathbf{X}\mathbf{W}

Support Vector Machines (SVM) und ihre Anwendung

Definition:

SVM ist ein überwacht lernender Algorithmus, der verwendet wird, um Daten in Klassen zu unterteilen, indem er die optimale Trennlinie (Hyperplane) findet.

Details:

  • Kernel-Trick: Erlaubt SVM, nichtlineare Trennungen durchzuführen, indem Daten in höhere Dimensionen projiziert werden.
  • Mathematische Formulierung: Optimaler Hyperplane maximiert den Abstand zwischen den Datenpunkten beider Klassen. Optimierungsproblem: \[ \text{minimize } \frac{1}{2} \boldsymbol{w}^T \boldsymbol{w} \text{ subject to } y_i (\boldsymbol{w}^T \boldsymbol{x}_i + b) \ge 1 \text{ for all } i \]
  • Soft-Margin SVM: Toleriert einige Fehlklassifizierungen, einführend variablen \(\xi_i\): \[ \text{minimize } \frac{1}{2} \boldsymbol{w}^T \boldsymbol{w} + C \sum_{i=1}^n \xi_i \text{ subject to } y_i (\boldsymbol{w}^T \boldsymbol{x}_i + b) \ge 1 - \xi_i \]
  • Kernel-Funktionen: Wichtig zur Handhabung von komplexeren Datensätzen (\text{z.B. } linear, polynomial, RBF).
  • Verwendung in Mustererkennung:
    • Bild- und Spracherkennung
    • Bioinformatik
    • Text- und Dokumentklassifizierung

Naive Bayes Klassifikator und andere Bayessche Klassifikatoren

Definition:

Naive Bayes Klassifikator: Einfacher probabilistischer Klassifikator, der die Naivität annimmt, dass die Merkmale unabhängig voneinander sind. Andere Bayessche Klassifikatoren nutzen ebenfalls Bayes' Theorem, berücksichtigen jedoch die Abhängigkeit zwischen den Merkmalen.

Details:

  • Naive Bayes Annahme: Unabhängigkeit der Merkmale
  • Bayes' Theorem: \[ P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)} \]
  • Wahrscheinlichkeitsschätzer nutzt Trainingsdaten: \( P(Y=y|X)= \prod_{i=1}^{n} P(X_i|Y=y) \cdot P(Y=y) \)
  • Verschiedene Varianten:
    • Gaussian Naive Bayes (für kontinuierliche Daten)
    • Multinomial Naive Bayes (für diskrete Daten)
    • Bernoulli Naive Bayes (für binäre Merkmale)
  • Andere Bayessche Klassifikatoren: Berücksichtigen Merkmalsabhängigkeit, z.B. Bayessche Netzwerke

Vorwärts-/Rückwärts-Algorithmus und der Viterbi-Algorithmus bei HMMs

Definition:

Vorwärts-/Rückwärts-Algorithmus werden für die Berechnung der Wahrscheinlichkeiten von Zustandsfolgen eingesetzt. Der Viterbi-Algorithmus findet den wahrscheinlichsten Zustandsweg.

Details:

  • Vorwärts-Algorithmus: Berechnet die Wahrscheinlichkeit einer Beobachtungssequenz bis zu einem bestimmten Zeitpunkt.
  • Rückwärts-Algorithmus: Berechnet die Wahrscheinlichkeit der verbleibenden Beobachtungssequenz ab einem bestimmten Zeitpunkt.
  • Vorwärts-Formel: \( \text{forward}(t, j) = \text{obs}_j(t) \times \text{sum}_{i=1}^{N} \text{transition}_{ij} \times \text{forward}(t-1, i) \)
  • Rückwärts-Formel: \( \text{backward}(t, i) = \text{sum}_{j=1}^{N} \text{transition}_{ij} \times \text{obs}_j(t+1) \times \text{backward}(t+1, j) \)
  • Viterbi-Algorithmus: Dynamische Programmierung, um den optimalen Pfad zu finden.
  • Viterbi-Formel: \( \text{viterbi}(t, j) = \text{obs}_j(t) \times \text{max}_{i=1}^{N} \text{transition}_{ij} \times \text{viterbi}(t-1, i) \)

Aufbau und Training von Convolutional Neural Networks (CNNs)

Definition:

CNNs bestehen aus Faltungs- und Pooling-Schichten, die hierarchische Merkmale aus den Eingabedaten extrahieren. Sie werden für Bild- und Spracherkennung verwendet.

Details:

  • Faltungsschichten (\textit{Convolutional Layers}): Anwenden von Filtern auf Eingabedaten, um Merkmale zu extrahieren
  • Pooling-Schichten: Reduktion der räumlichen Dimensionen der Daten
  • Aktivierungsfunktionen: z.B. ReLU, Sigmoid
  • Fully Connected Layers: Verarbeiten der extrahierten Merkmale für das endgültige Klassifikationsergebnis
  • Training: Gewichte mit Backpropagation und Gradientenabstieg anpassen
  • Verlustfunktion (\textit{Loss Function}): z.B. Kreuzentropie für Klassifikationsaufgaben
  • Regularisierung: Vermeidung von Overfitting, z.B. Dropout

Vorverarbeitung von Daten und Merkmalsextraktion bei textuellen und bildlichen Daten

Definition:

Vorverarbeitung von Daten optimiert die Datenqualität, die Merkmalsextraktion reduziert die Datenmenge auf informative Merkmale.

Details:

  • Datenvorverarbeitung
    • Bereinigung: Entf. von Rauschen/Fehlern
    • Normalisierung: Standardisieren der Werte
    • Transformation: Skalieren und Projektionen
  • Merkmalextraktionen bei Texten
    • Tokenisierung: Aufteilen in Wörter/Sätze
    • Stemming/Lemmatisierung: Grundformen bestimmen
    • Bag of Words, TF-IDF: Häufigkeitsvektoren
    • Wort2Vec, GloVe: Dichte Vektoren
  • Merkmalextraktionen bei Bildern
    • Kantendetektion: Erkennung von Kanten
    • Filterung: Rauschen reduzieren
    • HOG: Gradientenhistogramme
    • Convolutional Neural Networks (CNN): Tiefenmerkmale lernen

Ensemble-Methoden, wie Random Forests

Definition:

Ensemble-Methoden kombinieren mehrere Modelle, um die Gesamtleistung zu verbessern. Ein Random Forest besteht aus vielen Entscheidungsbäumen, die auf verschiedenen Datenstichproben trainiert werden.

Details:

  • Ziel: Reduktion von Überanpassung und Verbesserung der Vorhersagegenauigkeit
  • Einzelne Bäume: Training auf verschiedenen Datenstichproben (Bootstrap)
  • Vorhersage: Mehrheitsentscheidung der einzelnen Bäume
  • Wichtiger Parameter: Anzahl der Bäume (\textit{n\textsubscript{trees}})
  • Hauptvorteil: Robustheit und Genauigkeit

Evaluierung der Klassifikationsleistung mittels verschiedener Metriken

Definition:

Beurteilung der Performance eines Klassifikationsmodells durch verschiedene Kennzahlen.

Details:

  • Genutzte Metriken: Accuracy, Precision, Recall, F1-Score, ROC-AUC.
  • Accuracy: \( \frac{TP + TN}{TP + TN + FP + FN} \)
  • Precision: \( \frac{TP}{TP + FP} \)
  • Recall: \( \frac{TP}{TP + FN} \)
  • F1-Score: \( 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall} \)
  • ROC-AUC: Fläche unter der ROC-Kurve.
  • TP: True Positives, TN: True Negatives, FP: False Positives, FN: False Negatives
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden