Master-Projekt Datenmanagement - Cheatsheet.pdf

Master-Projekt Datenmanagement - Cheatsheet
Master-Projekt Datenmanagement - Cheatsheet ER-Diagramme und andere visuelle Darstellungsmethoden Definition: ER-Diagramme (Entity-Relationship Diagramme) und andere visuelle Darstellungsmethoden wie UML-Diagramme und Datenflussdiagramme visualisieren Datenstrukturen und Prozesse im Datenmanagement Details: Zeige Entitäten, Attribute und Beziehungen in ER-Diagrammen UML-Klassendiagramme: Struktur ...

© StudySmarter 2024, all rights reserved.

Master-Projekt Datenmanagement - Cheatsheet

ER-Diagramme und andere visuelle Darstellungsmethoden

Definition:

ER-Diagramme (Entity-Relationship Diagramme) und andere visuelle Darstellungsmethoden wie UML-Diagramme und Datenflussdiagramme visualisieren Datenstrukturen und Prozesse im Datenmanagement

Details:

  • Zeige Entitäten, Attribute und Beziehungen in ER-Diagrammen
  • UML-Klassendiagramme: Struktur von Klassen und deren Beziehungen
  • Datenflussdiagramme: Zeigt Datenbewegungen und Prozesse
  • Verwende Symbole und Konventionen spezifisch für die jeweilige Methode
  • Schlüsselinstrumente in der Datenmodellierung und Systemdesign
  • Schärfen das Verständnis und die Kommunikation zwischen Teammitgliedern und Stakeholdern

ETL-Prozesse (Extract, Transform, Load)

Definition:

ETL-Prozesse: Datenextraktion aus verschiedenen Quellen, Datenumwandlung nach spezifischen Qualitäten und Ladevorgang in ein Zielsystem.

Details:

  • Extrahieren (Extract): Daten aus unterschiedlichen Quellen wie Datenbanken, APIs, Dateien.
  • Transformieren (Transform): Bereinigung, Aggregation, Formatierung, Datenintegration, Berechnung neuer Daten.
  • Laden (Load): Übertragung der transformierten Daten in das Zielsystem (z.B. Data Warehouse).
  • ETL ist entscheidend für Datamarts, Data Warehousing, Data Integration.
  • Qualitätskontrollen: Datenvalidierung, Fehlerbehandlung während der ETL-Prozesse.
  • Automatisierungs-Tools: Talend, Informatica, Microsoft SSIS.

Datenvalidierung und -verifizierung

Definition:

Sicherstellen der Korrektheit und Genauigkeit von Daten.

Details:

  • Datenvalidierung: Überprüfung auf spezifizierte Kriterien (Format, Wertebereich).
  • Datenverifizierung: Bestätigung der Echtheit und Zuverlässigkeit durch Abgleich mit Quellen.
  • Methoden: Syntax-Checks, semantische Validierung, Konsistenzprüfungen.
  • Wichtige Aspekte: Genauigkeit, Vollständigkeit, Konsistenz.
  • Formeln: Validierung bei Bedingung \( x = \{1, 2, 3, \ldots, n \} \)

Hadoop und MapReduce

Definition:

Hadoop ist ein Framework zur verteilten Verarbeitung großer Datenmengen über mehrere Knoten hinweg. MapReduce ist das zugrundeliegende Programmiermodell für die High-Level-Verarbeitung in Hadoop.

Details:

  • HDFS: Hadoop Distributed File System zur robusten, redundanten Datenspeicherung.
  • Map step: Verarbeitet Daten in Form von Schlüssel/Wert-Paaren, gibt Zwischenresultate aus.
  • Reduce step: Aggregiert Zwischenresultate zu Endresultaten.
  • JobTracker/TaskTracker: Verwalten Job-Aufträge und Aufgabenverteilung.
  • Skalierbar und fehlertolerant.
  • API: Unterstützt mehrere Programmiersprachen, z.B. Java, Python.

Statistische Methoden und maschinelles Lernen

Definition:

Anwendung statistischer Verfahren und Algorithmen zur Mustererkennung und Vorhersage.

Details:

  • Lineare Regression: \(Y = aX + b\)
  • Klassifikation: Entscheidungsbäume, SVMs, k-NN.
  • Clustering: k-Means, hierarchisches Clustering.
  • Fehlermaße: MSE, MAE, f1-Score.
  • Regularisierung: Ridge, Lasso.
  • Trainings-/Testdaten: Aufteilung von Datenmengen zur Validierung.

Verteilte Datenverarbeitung

Definition:

Verarbeitung von Daten über mehrere Knoten hinweg verteilt, um Skalierbarkeit, Fehlertoleranz und Leistung zu verbessern.

Details:

  • Grundlagen: Aufteilung der Daten auf mehrere Rechner.
  • Architekturen: Client-Server, Peer-to-Peer, Master-Slave.
  • Replikation: Erhöht Verfügbarkeit und Fehlertoleranz.
  • Lastverteilung: Optimiert Ressourcennutzung.
  • Kommunikationsprotokolle: z.B. RPC, REST, gRPC.
  • Speichertechnologien: verteilte Dateisysteme (HDFS), verteilte Datenbanken (Cassandra).
  • Verteilte Algorithmen: z.B. MapReduce, Spark.
  • Fehlertoleranz: Strategien zur Bewältigung von Ausfällen.
  • Konsistenzmodelle: z.B. eventual consistency, starke Konsistenz.
  • Beispiele: Hadoop, Apache Kafka, Google File System.

Datenqualitätsprobleme identifizieren und beheben

Definition:

Datenqualität sicherstellen, indem Probleme identifiziert und Lösungen implementiert werden.

Details:

  • Datenbereinigung (z.B. fehlende Werte, Dubletten)
  • Validierung von Daten (Einhaltung von Geschäftsregeln)
  • Verwendung von Datenqualitätsmetriken (Genauigkeit, Vollständigkeit, Konsistenz)
  • Prozess zur ständigen Verbesserung der Datenqualität
  • Tools und Techniken: ETL-Prozesse, Datenprofilierung, Datenvalidierung

Prädiktive Modellierung

Definition:

Verwendung statistischer Techniken und Machine Learning-Algorithmen zur Vorhersage zukünftiger Ereignisse basierend auf historischen Daten.

Details:

  • Algorithmus-Auswahl: z.B. Lineare Regression, Entscheidungsbäume, KNN.
  • Modell-Training: Anpassung des Modells an Trainingsdaten.
  • Modell-Evaluierung: Messung der Genauigkeit mittels Metriken wie MAE, MSE.
  • Hyperparameter-Optimierung zur Leistungssteigerung.
  • Datenvorverarbeitung: Normalisierung, Feature-Engineering.
  • Anwendung des Modells auf neue Daten zur Vorhersage.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden