Master-Projekt Datenmanagement - Cheatsheet
ER-Diagramme und andere visuelle Darstellungsmethoden
Definition:
ER-Diagramme (Entity-Relationship Diagramme) und andere visuelle Darstellungsmethoden wie UML-Diagramme und Datenflussdiagramme visualisieren Datenstrukturen und Prozesse im Datenmanagement
Details:
- Zeige Entitäten, Attribute und Beziehungen in ER-Diagrammen
- UML-Klassendiagramme: Struktur von Klassen und deren Beziehungen
- Datenflussdiagramme: Zeigt Datenbewegungen und Prozesse
- Verwende Symbole und Konventionen spezifisch für die jeweilige Methode
- Schlüsselinstrumente in der Datenmodellierung und Systemdesign
- Schärfen das Verständnis und die Kommunikation zwischen Teammitgliedern und Stakeholdern
ETL-Prozesse (Extract, Transform, Load)
Definition:
ETL-Prozesse: Datenextraktion aus verschiedenen Quellen, Datenumwandlung nach spezifischen Qualitäten und Ladevorgang in ein Zielsystem.
Details:
- Extrahieren (Extract): Daten aus unterschiedlichen Quellen wie Datenbanken, APIs, Dateien.
- Transformieren (Transform): Bereinigung, Aggregation, Formatierung, Datenintegration, Berechnung neuer Daten.
- Laden (Load): Übertragung der transformierten Daten in das Zielsystem (z.B. Data Warehouse).
- ETL ist entscheidend für Datamarts, Data Warehousing, Data Integration.
- Qualitätskontrollen: Datenvalidierung, Fehlerbehandlung während der ETL-Prozesse.
- Automatisierungs-Tools: Talend, Informatica, Microsoft SSIS.
Datenvalidierung und -verifizierung
Definition:
Sicherstellen der Korrektheit und Genauigkeit von Daten.
Details:
- Datenvalidierung: Überprüfung auf spezifizierte Kriterien (Format, Wertebereich).
- Datenverifizierung: Bestätigung der Echtheit und Zuverlässigkeit durch Abgleich mit Quellen.
- Methoden: Syntax-Checks, semantische Validierung, Konsistenzprüfungen.
- Wichtige Aspekte: Genauigkeit, Vollständigkeit, Konsistenz.
- Formeln: Validierung bei Bedingung \( x = \{1, 2, 3, \ldots, n \} \)
Hadoop und MapReduce
Definition:
Hadoop ist ein Framework zur verteilten Verarbeitung großer Datenmengen über mehrere Knoten hinweg. MapReduce ist das zugrundeliegende Programmiermodell für die High-Level-Verarbeitung in Hadoop.
Details:
- HDFS: Hadoop Distributed File System zur robusten, redundanten Datenspeicherung.
- Map step: Verarbeitet Daten in Form von Schlüssel/Wert-Paaren, gibt Zwischenresultate aus.
- Reduce step: Aggregiert Zwischenresultate zu Endresultaten.
- JobTracker/TaskTracker: Verwalten Job-Aufträge und Aufgabenverteilung.
- Skalierbar und fehlertolerant.
- API: Unterstützt mehrere Programmiersprachen, z.B. Java, Python.
Statistische Methoden und maschinelles Lernen
Definition:
Anwendung statistischer Verfahren und Algorithmen zur Mustererkennung und Vorhersage.
Details:
- Lineare Regression: \(Y = aX + b\)
- Klassifikation: Entscheidungsbäume, SVMs, k-NN.
- Clustering: k-Means, hierarchisches Clustering.
- Fehlermaße: MSE, MAE, f1-Score.
- Regularisierung: Ridge, Lasso.
- Trainings-/Testdaten: Aufteilung von Datenmengen zur Validierung.
Verteilte Datenverarbeitung
Definition:
Verarbeitung von Daten über mehrere Knoten hinweg verteilt, um Skalierbarkeit, Fehlertoleranz und Leistung zu verbessern.
Details:
- Grundlagen: Aufteilung der Daten auf mehrere Rechner.
- Architekturen: Client-Server, Peer-to-Peer, Master-Slave.
- Replikation: Erhöht Verfügbarkeit und Fehlertoleranz.
- Lastverteilung: Optimiert Ressourcennutzung.
- Kommunikationsprotokolle: z.B. RPC, REST, gRPC.
- Speichertechnologien: verteilte Dateisysteme (HDFS), verteilte Datenbanken (Cassandra).
- Verteilte Algorithmen: z.B. MapReduce, Spark.
- Fehlertoleranz: Strategien zur Bewältigung von Ausfällen.
- Konsistenzmodelle: z.B. eventual consistency, starke Konsistenz.
- Beispiele: Hadoop, Apache Kafka, Google File System.
Datenqualitätsprobleme identifizieren und beheben
Definition:
Datenqualität sicherstellen, indem Probleme identifiziert und Lösungen implementiert werden.
Details:
- Datenbereinigung (z.B. fehlende Werte, Dubletten)
- Validierung von Daten (Einhaltung von Geschäftsregeln)
- Verwendung von Datenqualitätsmetriken (Genauigkeit, Vollständigkeit, Konsistenz)
- Prozess zur ständigen Verbesserung der Datenqualität
- Tools und Techniken: ETL-Prozesse, Datenprofilierung, Datenvalidierung
Prädiktive Modellierung
Definition:
Verwendung statistischer Techniken und Machine Learning-Algorithmen zur Vorhersage zukünftiger Ereignisse basierend auf historischen Daten.
Details:
- Algorithmus-Auswahl: z.B. Lineare Regression, Entscheidungsbäume, KNN.
- Modell-Training: Anpassung des Modells an Trainingsdaten.
- Modell-Evaluierung: Messung der Genauigkeit mittels Metriken wie MAE, MSE.
- Hyperparameter-Optimierung zur Leistungssteigerung.
- Datenvorverarbeitung: Normalisierung, Feature-Engineering.
- Anwendung des Modells auf neue Daten zur Vorhersage.