Knowledge Discovery in Databases mit Übung - Cheatsheet.pdf

Knowledge Discovery in Databases mit Übung - Cheatsheet
Knowledge Discovery in Databases mit Übung - Cheatsheet Definition und Ziele des Data Mining Definition: Data Mining: Extraktion von Mustern, Trends und Wissen aus großen Datenmengen. Details: Ziel: Verborgene, nützliche Informationen extrahieren Verwendete Methoden: Klassifikation, Regression, Clustering, Assoziationsanalyse Anwendungsbereiche: Marketing, Finanzanalysen, Betrugserkennung, Gesundh...

© StudySmarter 2024, all rights reserved.

Knowledge Discovery in Databases mit Übung - Cheatsheet

Definition und Ziele des Data Mining

Definition:

Data Mining: Extraktion von Mustern, Trends und Wissen aus großen Datenmengen.

Details:

  • Ziel: Verborgene, nützliche Informationen extrahieren
  • Verwendete Methoden: Klassifikation, Regression, Clustering, Assoziationsanalyse
  • Anwendungsbereiche: Marketing, Finanzanalysen, Betrugserkennung, Gesundheitswesen
  • Prozess: Rohdaten -> Datenaufbereitung -> Modellbildung -> Evaluation

Datenvorverarbeitung und -bereinigung

Definition:

Wichtige Schritte im KDD-Prozess zur Sicherstellung der Datenqualität, Verbesserung der Datenkonsistenz und Reduzierung von Rauschen.

Details:

  • Datenbereinigung: Entfernen oder Korrigieren fehlerhafter Daten
  • Datenintegration: Kombinieren von Daten aus verschiedenen Quellen
  • Feature-Engineering: Erstellen neuer Merkmale aus bestehenden Daten
  • Normalisierung: Transformation von Daten zu einem einheitlichen Maßstab
  • Datenreduktion: Verringern der Datenmenge durch Techniken wie PCA

Klassifikationsalgorithmen

Definition:

Prozesse zur Zuordnung von Objekten zu vordefinierten Klassen basierend auf deren Eigenschaften.

Details:

  • Supervised Learning
  • Bekannte Algorithmen: Entscheidungsbäume, k-NN, Naive Bayes, Support Vector Machines (SVM)
  • Leistungsbewertung: Genauigkeit, Präzision, Recall, F1-Score
  • Anwendungsbeispiele: Spam-Erkennung, Bildklassifikation, Diagnosen in der Medizin
  • Datenaufbereitung: Normalisierung, Kategorienkodierung, Feature-Engineering
  • Formel zur Genauigkeit: \( \text{Genauigkeit} = \frac{\text{Anzahl der korrekten Vorhersagen}}{\text{Gesamtanzahl der Vorhersagen}} \)

Clustering-Methoden

Definition:

Kategorisierung von Datenpunkten in Gruppen (Cluster), sodass Punkte im selben Cluster ähnlicher zueinander sind als zu Punkten in anderen Clustern.

Details:

  • K-Means: Minimiert die Summe der quadratischen Abstände der Punkte zu ihren jeweiligen Clusterzentren. Initialisiert mit zufälligen Zentroiden.
  • Hierarchisches Clustering: Bildet eine Hierarchie von Clustern durch entweder schrittweises Zusammenführen (agglomerativ) oder Aufteilen (divisiv).
  • DBSCAN: Dichtebasiertes Clustering, definiert Cluster als Bereiche hoher Punktdichte und behandelt Punkte in niedrigdichten Regionen als Rauschen.
  • Evaluation: Silhouetten-Koeffizient, Dunn-Index, Davies-Bouldin-Index zur Bewertung der Qualität der Clusterbildung.

Neuronale Netzwerke und Deep Learning

Definition:

Verwendung mehrerer Schichten von Neuronen zur Mustererkennung und Vorhersage, basierend auf großen Datenmengen.

Details:

  • Grundstruktur: Eingabeschicht, versteckte Schichten, Ausgabeschicht
  • Training mittels Backpropagation
  • Verlustfunktion: z.B. Mean Squared Error, Cross-Entropy
  • Optimierung: z.B. Gradient Descent, Adam
  • Architekturen: CNN für Bilderkennung, RNN für sequenzielle Daten
  • Aktivierungsfunktionen: Sigmoid, ReLU, Tanh
  • Überanpassung vermeiden: Regularisierung, Dropout

Support Vector Machines

Definition:

Support Vector Machines (SVMs) sind überwachte Lernalgorithmen, die zur Klassifikation und Regression von Daten verwendet werden. Zielen darauf ab, die optimale Trennlinie (Hyperplane) zu finden, die die Datenpunkte verschiedener Klassen maximal trennt.

Details:

  • Maximierung des Abstands zwischen den nächstgelegenen Punkten (Support-Vektoren) beider Klassen.
  • Für lineare Trennung: Trennlinie durch \( w \times x - b = 0 \)
  • Kostenfunktion zur Optimierung: \[ \text{minimize} \frac{1}{2} \times ||w||^2 \]
  • Für nicht-lineare Trennung: Kernel-Trick (z.B. Gaußsche RBF, Polynomiell) um Daten in höherdimensionale Räume abzubilden.
  • Soft-Margin-SVM für trennbare und nicht-trennbare Daten: Einführen eines Regularisierungsparameters \( C \) zur Kontrolle des Kompromisses zwischen Maximierung des Abstands und Minimierung der Fehlklassifikationen.

Metriken zur Bewertung der Modellgüte

Definition:

Maßstäbe zur Evaluation der Leistungsfähigkeit und Genauigkeit von Modellen

Details:

  • Accuracy: Verhältnis korrekt vorhergesagter Instanzen zur Gesamtzahl
  • Precision: \(\text{Precision} = \frac{TP}{TP + FP} \)
  • Recall: \(\text{Recall} = \frac{TP}{TP + FN} \)
  • F1-Score: harmonisches Mittel von Precision und Recall \(\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} \)
  • ROC-AUC: Fläche unter der ROC-Kurve
  • Mean Squared Error (MSE): \(\text{MSE} = \frac{1}{n} \times \textstyle \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)
  • R² (Bestimmtheitsmaß): \(\text{R}^2 = 1 - \frac{SS_\text{res}}{SS_\text{tot}} \)
  • Cross-Validation: Modellbewertung durch wiederholtes Training und Testen auf verschiedenen Datenpartitionen

Visualisierungstechniken für Data Science

Definition:

Graphische Darstellung von Daten, um Muster, Zusammenhänge und Ausreißer sichtbar zu machen.

Details:

  • Wichtige Techniken: Scatterplots, Liniendiagramme, Balkendiagramme, Boxplots, Heatmaps, Netzwerke.
  • Scatterplot: Visualisierung von Korrelationen zweier Merkmale.
  • Liniendiagramm: Zeitliche Entwicklungen darstellen.
  • Balkendiagramm: Vergleich von Mengen und Häufigkeiten.
  • Boxplot: Verteilung, Zentralwert und Ausreißer eines Merkmals.
  • Heatmap: Werte in einer Matrix strukturierter Daten.
  • Netzwerke: Beziehungen/Interaktionen visualisieren.
  • Interaktive Visualisierungsbibliotheken: Matplotlib, Seaborn, Plotly, D3.js.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden