Knowledge Discovery in Databases mit Übung - Cheatsheet.pdf

Knowledge Discovery in Databases mit Übung - Cheatsheet
Knowledge Discovery in Databases mit Übung - Cheatsheet Datenbereinigungstechniken zur Entfernung von Rauschen und Inkonsistenzen Definition: Techniken zur Reinigung und Korrektur von Datensätzen, um Genauigkeit und Qualität zu verbessern. Details: Filterung: Entfernt Rauschen durch Schwellenwertmethoden oder statistische Modelle. Imputation: Ersetzt fehlende Werte durch Durchschnittswerte, Median...

© StudySmarter 2024, all rights reserved.

Knowledge Discovery in Databases mit Übung - Cheatsheet

Datenbereinigungstechniken zur Entfernung von Rauschen und Inkonsistenzen

Definition:

Techniken zur Reinigung und Korrektur von Datensätzen, um Genauigkeit und Qualität zu verbessern.

Details:

  • Filterung: Entfernt Rauschen durch Schwellenwertmethoden oder statistische Modelle.
  • Imputation: Ersetzt fehlende Werte durch Durchschnittswerte, Mediane oder Modellen.
  • Deduplication: Identifiziert und entfernt Duplikate im Datensatz.
  • Standardisierung: Vereinheitlicht Format und Werte von Daten.
  • Validierung: Überprüft Daten auf Konsistenz und Korrektheit.
  • Transformation: Konvertiert Daten in ein einheitliches Format oder Schema.

Datentransformationsmethoden zur Normalisierung und Aggregation

Definition:

Techniken zur Anpassung und Zusammenführung von Daten, um Analyse und Mustererkennung zu erleichtern.

Details:

  • Normalisierung: Umwandeln von Daten in einen gemeinsamen Maßstab zur Reduzierung von Verzerrungen
  • Min-Max-Skalierung: \(\text{X'} = \frac{\text{X} - \text{min}(X)}{\text{max}(X) - \text{min}(X)}\)
  • Z-Skalierung: \(\text{Z} = \frac{\text{X} - \text{mean}(X)}{\text{std}(X)}\)
  • Log-Transformation: Transformation zur Reduzierung der Verzerrung durch große Werte, \(\text{X'} = \text{log}(X + 1)\)
  • Aggregation: Zusammenfassen mehrerer Datenpunkte zu aussagekräftigeren Daten
  • Summe: \(\text{Summe} = \text{sum}(X)\)
  • Durchschnitt: \(\text{Mittelwert} = \frac{1}{N} \text{sum}(X)\)
  • Max/Min: Ermittlung des höchsten oder niedrigsten Wertes in der Datenmenge

Überwachtes Lernen, einschließlich Regression und Klassifikation

Definition:

Angewandtes Lernen aus bekannten Eingabe- und Ausgabe-Datenpaaren, um ein Modell zu erstellen, das zukünftige Ausgaben vorhersagen kann.

Details:

  • Grundlegende Methoden: Regression und Klassifikation
  • Regression: Vorhersage kontinuierlicher Werte, z.B. lineare Regression; Formel: \(y = \beta_0 + \beta_1 x + \epsilon\)
  • Klassifikation: Zuweisung von Kategorien, z.B. logistische Regression; Entscheidungsgrenzen: \(P(y=1|x) = \frac{1}{1+e^{-wx}}\)
  • Wichtig: Datensätze in Trainings- und Testdaten unterteilen
  • Evaluationsmetriken: RMSE für Regression, Genauigkeit für Klassifikation
  • Algorithmen: k-NN, SVM, Entscheidungsbäume

Clusteranalyse im unüberwachten Lernen

Definition:

Clusteranalyse: Methode im unüberwachten Lernen zur Gruppierung ähnlicher Datenpunkte ohne vorgegebene Labels

Details:

  • Ziel: Finden von Struktur in Daten durch Identifikation von Clustern
  • Keine vorherige Kenntnis über Klassenlabels nötig
  • Beliebte Algorithmen: k-Means, Hierarchisches Clustering, DBSCAN
  • Wichtig: Auswahl geeigneter Distanzmaße und Parameter
  • Anwendung: Mustererkennung, Anomalieerkennung, Datenkompression
  • Cluster-Zentralen \(\mu_j\) repräsentieren mittlere Positionen der Cluster
  • Optimierung durch Minimierung der Summe der quadratischen Abstände:

\[ \arg \min_{{C_1, C_2, \ldots, C_k}} \sum_{j=1}^k \sum_{x_i \in C_j} ||x_i - \mu_j||^2 \]

Apriori-Algorithmus zur Berechnung von Frequent Itemsets

Definition:

Apriori-Algorithmus zur Identifikation häufiger Itemsets in Transaktionsdatenbanken.

Details:

  • Schritt 1: Bestimme 1-Itemsets, die die Mindestunterstützung erfüllen (\textit{min-sup}).
  • Schritt 2: Generiere Kandidaten-{k} Itemsets aus häufigen {(k-1)} Itemsets.
  • Schritt 3: Filtere Kandidaten-{k} Itemsets basierend auf \textit{min-sup}.
  • Schritt 4: Wiederhole Schritte 2 und 3, bis keine neuen häufigen Itemsets gefunden werden.
  • \textit{Verwendung:} Marktanalysen, Warenkorbanalysen, etc.

Statistische Methoden zur Anomalieerkennung

Definition:

Erkennung von ungewöhnlichen Mustern oder Ausreißern in Datensätzen mittels statistischer Techniken.

Details:

  • Grundannahme: Anomalien unterscheiden sich signifikant vom Rest der Daten.
  • Hypothesentests: Überprüfe, ob Datenpunkt signifikant von Erwartungswert abweicht (z-Score, t-Test).
  • Verteilungsmodelle: Modelliere Daten als Verteilung und identifiziere Ausreißer basierend auf Wahrscheinlichkeiten (Gaussian Mixture Models).
  • Zeitreihenanalyse: Detektiere Anomalien in sequentiellen Daten (ARIMA, Exponentielle Glättung).
  • Clustering-Methoden: Identifiziere Anomalien als Punkte, die nicht zu Clustern gehören (DBSCAN).

Information Retrieval und Natural Language Processing (NLP)

Definition:

Methoden zur Suche und Extraktion von Informationen aus Daten; Einsatz von NLP zur Verarbeitung und Analyse natürlicher Sprache.

Details:

  • Information Retrieval: Indexierung, Suche & Ranking.
  • NLP: Verarbeitung, Verständnis & Generierung von Text.
  • Wichtige Konzepte: Tokenisierung, Stemming, Lemmatisierung, Parsing.
  • Anwendungen: Chatbots, Suchmaschinen, Textklassifikation.
  • Wichtige Modelle: TF-IDF, BM25, Word2Vec, BERT.

Web Scraping und Datenextraktion aus Webseiten

Definition:

Extraktion von Informationen aus Webseiten durch automatisierte Anfragen und Parsing des HTML-Codes.

Details:

  • Verwendung von Bibliotheken wie BeautifulSoup, Scrapy oder Selenium
  • HTML-Strukturanalyse (Tags, Attribute)
  • Reguläre Ausdrücke zur Mustersuche
  • Umgang mit dynamischen Inhalten (JavaScript)
  • Risiken: rechtliche Aspekte, IP-Sperren, CAPTCHA
  • Ethik der Datennutzung: Zustimmung und Copyright
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden