Knowledge Discovery in Databases mit Übung - Cheatsheet
Definition und Ziele des Data Mining
Definition:
Data Mining: Extraktion von Mustern, Trends und Wissen aus großen Datenmengen.
Details:
- Ziel: Verborgene, nützliche Informationen extrahieren
- Verwendete Methoden: Klassifikation, Regression, Clustering, Assoziationsanalyse
- Anwendungsbereiche: Marketing, Finanzanalysen, Betrugserkennung, Gesundheitswesen
- Prozess: Rohdaten -> Datenaufbereitung -> Modellbildung -> Evaluation
Datenvorverarbeitung und -bereinigung
Definition:
Wichtige Schritte im KDD-Prozess zur Sicherstellung der Datenqualität, Verbesserung der Datenkonsistenz und Reduzierung von Rauschen.
Details:
- Datenbereinigung: Entfernen oder Korrigieren fehlerhafter Daten
- Datenintegration: Kombinieren von Daten aus verschiedenen Quellen
- Feature-Engineering: Erstellen neuer Merkmale aus bestehenden Daten
- Normalisierung: Transformation von Daten zu einem einheitlichen Maßstab
- Datenreduktion: Verringern der Datenmenge durch Techniken wie PCA
Klassifikationsalgorithmen
Definition:
Prozesse zur Zuordnung von Objekten zu vordefinierten Klassen basierend auf deren Eigenschaften.
Details:
- Supervised Learning
- Bekannte Algorithmen: Entscheidungsbäume, k-NN, Naive Bayes, Support Vector Machines (SVM)
- Leistungsbewertung: Genauigkeit, Präzision, Recall, F1-Score
- Anwendungsbeispiele: Spam-Erkennung, Bildklassifikation, Diagnosen in der Medizin
- Datenaufbereitung: Normalisierung, Kategorienkodierung, Feature-Engineering
- Formel zur Genauigkeit: \( \text{Genauigkeit} = \frac{\text{Anzahl der korrekten Vorhersagen}}{\text{Gesamtanzahl der Vorhersagen}} \)
Clustering-Methoden
Definition:
Kategorisierung von Datenpunkten in Gruppen (Cluster), sodass Punkte im selben Cluster ähnlicher zueinander sind als zu Punkten in anderen Clustern.
Details:
- K-Means: Minimiert die Summe der quadratischen Abstände der Punkte zu ihren jeweiligen Clusterzentren. Initialisiert mit zufälligen Zentroiden.
- Hierarchisches Clustering: Bildet eine Hierarchie von Clustern durch entweder schrittweises Zusammenführen (agglomerativ) oder Aufteilen (divisiv).
- DBSCAN: Dichtebasiertes Clustering, definiert Cluster als Bereiche hoher Punktdichte und behandelt Punkte in niedrigdichten Regionen als Rauschen.
- Evaluation: Silhouetten-Koeffizient, Dunn-Index, Davies-Bouldin-Index zur Bewertung der Qualität der Clusterbildung.
Neuronale Netzwerke und Deep Learning
Definition:
Verwendung mehrerer Schichten von Neuronen zur Mustererkennung und Vorhersage, basierend auf großen Datenmengen.
Details:
- Grundstruktur: Eingabeschicht, versteckte Schichten, Ausgabeschicht
- Training mittels Backpropagation
- Verlustfunktion: z.B. Mean Squared Error, Cross-Entropy
- Optimierung: z.B. Gradient Descent, Adam
- Architekturen: CNN für Bilderkennung, RNN für sequenzielle Daten
- Aktivierungsfunktionen: Sigmoid, ReLU, Tanh
- Überanpassung vermeiden: Regularisierung, Dropout
Support Vector Machines
Definition:
Support Vector Machines (SVMs) sind überwachte Lernalgorithmen, die zur Klassifikation und Regression von Daten verwendet werden. Zielen darauf ab, die optimale Trennlinie (Hyperplane) zu finden, die die Datenpunkte verschiedener Klassen maximal trennt.
Details:
- Maximierung des Abstands zwischen den nächstgelegenen Punkten (Support-Vektoren) beider Klassen.
- Für lineare Trennung: Trennlinie durch \( w \times x - b = 0 \)
- Kostenfunktion zur Optimierung: \[ \text{minimize} \frac{1}{2} \times ||w||^2 \]
- Für nicht-lineare Trennung: Kernel-Trick (z.B. Gaußsche RBF, Polynomiell) um Daten in höherdimensionale Räume abzubilden.
- Soft-Margin-SVM für trennbare und nicht-trennbare Daten: Einführen eines Regularisierungsparameters \( C \) zur Kontrolle des Kompromisses zwischen Maximierung des Abstands und Minimierung der Fehlklassifikationen.
Metriken zur Bewertung der Modellgüte
Definition:
Maßstäbe zur Evaluation der Leistungsfähigkeit und Genauigkeit von Modellen
Details:
- Accuracy: Verhältnis korrekt vorhergesagter Instanzen zur Gesamtzahl
- Precision: \(\text{Precision} = \frac{TP}{TP + FP} \)
- Recall: \(\text{Recall} = \frac{TP}{TP + FN} \)
- F1-Score: harmonisches Mittel von Precision und Recall \(\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} \)
- ROC-AUC: Fläche unter der ROC-Kurve
- Mean Squared Error (MSE): \(\text{MSE} = \frac{1}{n} \times \textstyle \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)
- R² (Bestimmtheitsmaß): \(\text{R}^2 = 1 - \frac{SS_\text{res}}{SS_\text{tot}} \)
- Cross-Validation: Modellbewertung durch wiederholtes Training und Testen auf verschiedenen Datenpartitionen
Visualisierungstechniken für Data Science
Definition:
Graphische Darstellung von Daten, um Muster, Zusammenhänge und Ausreißer sichtbar zu machen.
Details:
- Wichtige Techniken: Scatterplots, Liniendiagramme, Balkendiagramme, Boxplots, Heatmaps, Netzwerke.
- Scatterplot: Visualisierung von Korrelationen zweier Merkmale.
- Liniendiagramm: Zeitliche Entwicklungen darstellen.
- Balkendiagramm: Vergleich von Mengen und Häufigkeiten.
- Boxplot: Verteilung, Zentralwert und Ausreißer eines Merkmals.
- Heatmap: Werte in einer Matrix strukturierter Daten.
- Netzwerke: Beziehungen/Interaktionen visualisieren.
- Interaktive Visualisierungsbibliotheken: Matplotlib, Seaborn, Plotly, D3.js.