Knowledge Discovery in Databases mit Übung - Cheatsheet
Datenbereinigungstechniken zur Entfernung von Rauschen und Inkonsistenzen
Definition:
Techniken zur Reinigung und Korrektur von Datensätzen, um Genauigkeit und Qualität zu verbessern.
Details:
- Filterung: Entfernt Rauschen durch Schwellenwertmethoden oder statistische Modelle.
- Imputation: Ersetzt fehlende Werte durch Durchschnittswerte, Mediane oder Modellen.
- Deduplication: Identifiziert und entfernt Duplikate im Datensatz.
- Standardisierung: Vereinheitlicht Format und Werte von Daten.
- Validierung: Überprüft Daten auf Konsistenz und Korrektheit.
- Transformation: Konvertiert Daten in ein einheitliches Format oder Schema.
Datentransformationsmethoden zur Normalisierung und Aggregation
Definition:
Techniken zur Anpassung und Zusammenführung von Daten, um Analyse und Mustererkennung zu erleichtern.
Details:
- Normalisierung: Umwandeln von Daten in einen gemeinsamen Maßstab zur Reduzierung von Verzerrungen
- Min-Max-Skalierung: \(\text{X'} = \frac{\text{X} - \text{min}(X)}{\text{max}(X) - \text{min}(X)}\)
- Z-Skalierung: \(\text{Z} = \frac{\text{X} - \text{mean}(X)}{\text{std}(X)}\)
- Log-Transformation: Transformation zur Reduzierung der Verzerrung durch große Werte, \(\text{X'} = \text{log}(X + 1)\)
- Aggregation: Zusammenfassen mehrerer Datenpunkte zu aussagekräftigeren Daten
- Summe: \(\text{Summe} = \text{sum}(X)\)
- Durchschnitt: \(\text{Mittelwert} = \frac{1}{N} \text{sum}(X)\)
- Max/Min: Ermittlung des höchsten oder niedrigsten Wertes in der Datenmenge
Überwachtes Lernen, einschließlich Regression und Klassifikation
Definition:
Angewandtes Lernen aus bekannten Eingabe- und Ausgabe-Datenpaaren, um ein Modell zu erstellen, das zukünftige Ausgaben vorhersagen kann.
Details:
- Grundlegende Methoden: Regression und Klassifikation
- Regression: Vorhersage kontinuierlicher Werte, z.B. lineare Regression; Formel: \(y = \beta_0 + \beta_1 x + \epsilon\)
- Klassifikation: Zuweisung von Kategorien, z.B. logistische Regression; Entscheidungsgrenzen: \(P(y=1|x) = \frac{1}{1+e^{-wx}}\)
- Wichtig: Datensätze in Trainings- und Testdaten unterteilen
- Evaluationsmetriken: RMSE für Regression, Genauigkeit für Klassifikation
- Algorithmen: k-NN, SVM, Entscheidungsbäume
Clusteranalyse im unüberwachten Lernen
Definition:
Clusteranalyse: Methode im unüberwachten Lernen zur Gruppierung ähnlicher Datenpunkte ohne vorgegebene Labels
Details:
- Ziel: Finden von Struktur in Daten durch Identifikation von Clustern
- Keine vorherige Kenntnis über Klassenlabels nötig
- Beliebte Algorithmen: k-Means, Hierarchisches Clustering, DBSCAN
- Wichtig: Auswahl geeigneter Distanzmaße und Parameter
- Anwendung: Mustererkennung, Anomalieerkennung, Datenkompression
- Cluster-Zentralen \(\mu_j\) repräsentieren mittlere Positionen der Cluster
- Optimierung durch Minimierung der Summe der quadratischen Abstände:
\[ \arg \min_{{C_1, C_2, \ldots, C_k}} \sum_{j=1}^k \sum_{x_i \in C_j} ||x_i - \mu_j||^2 \]
Apriori-Algorithmus zur Berechnung von Frequent Itemsets
Definition:
Apriori-Algorithmus zur Identifikation häufiger Itemsets in Transaktionsdatenbanken.
Details:
- Schritt 1: Bestimme 1-Itemsets, die die Mindestunterstützung erfüllen (\textit{min-sup}).
- Schritt 2: Generiere Kandidaten-{k} Itemsets aus häufigen {(k-1)} Itemsets.
- Schritt 3: Filtere Kandidaten-{k} Itemsets basierend auf \textit{min-sup}.
- Schritt 4: Wiederhole Schritte 2 und 3, bis keine neuen häufigen Itemsets gefunden werden.
- \textit{Verwendung:} Marktanalysen, Warenkorbanalysen, etc.
Statistische Methoden zur Anomalieerkennung
Definition:
Erkennung von ungewöhnlichen Mustern oder Ausreißern in Datensätzen mittels statistischer Techniken.
Details:
- Grundannahme: Anomalien unterscheiden sich signifikant vom Rest der Daten.
- Hypothesentests: Überprüfe, ob Datenpunkt signifikant von Erwartungswert abweicht (z-Score, t-Test).
- Verteilungsmodelle: Modelliere Daten als Verteilung und identifiziere Ausreißer basierend auf Wahrscheinlichkeiten (Gaussian Mixture Models).
- Zeitreihenanalyse: Detektiere Anomalien in sequentiellen Daten (ARIMA, Exponentielle Glättung).
- Clustering-Methoden: Identifiziere Anomalien als Punkte, die nicht zu Clustern gehören (DBSCAN).
Information Retrieval und Natural Language Processing (NLP)
Definition:
Methoden zur Suche und Extraktion von Informationen aus Daten; Einsatz von NLP zur Verarbeitung und Analyse natürlicher Sprache.
Details:
- Information Retrieval: Indexierung, Suche & Ranking.
- NLP: Verarbeitung, Verständnis & Generierung von Text.
- Wichtige Konzepte: Tokenisierung, Stemming, Lemmatisierung, Parsing.
- Anwendungen: Chatbots, Suchmaschinen, Textklassifikation.
- Wichtige Modelle: TF-IDF, BM25, Word2Vec, BERT.
Web Scraping und Datenextraktion aus Webseiten
Definition:
Extraktion von Informationen aus Webseiten durch automatisierte Anfragen und Parsing des HTML-Codes.
Details:
- Verwendung von Bibliotheken wie BeautifulSoup, Scrapy oder Selenium
- HTML-Strukturanalyse (Tags, Attribute)
- Reguläre Ausdrücke zur Mustersuche
- Umgang mit dynamischen Inhalten (JavaScript)
- Risiken: rechtliche Aspekte, IP-Sperren, CAPTCHA
- Ethik der Datennutzung: Zustimmung und Copyright