Datenmanagement - Cheatsheet
Datenhierarchien und -strukturen
Definition:
Organisieren von Daten in unterschiedlichen Ebenen und Strukturen zur effizienten Verwaltung und Analyse
Details:
- Ebene 1: Bits und Bytes
- Ebene 2: Felder und Datensätze
- Ebene 3: Dateien und Tabellen
- Ebene 4: Datenbanken und Data Warehouses
- Baumstrukturen: Darstellung hierarchischer Beziehungen
- \textbf{Graphentheorie:} Nutzung von Graphen zur Datenstrukturierung
- \textbf{JSON:} Textbasiertes Format zur Datenrepräsentation
- \textbf{XML:} Markup-Sprache zur Datenstrukturierung
- Datenzugriff: \textbf{SQL} für relationale Datenbanken
Datenintegrität und Qualitätssicherung
Definition:
Sicherstellung, dass Daten korrekt, konsistent und fehlerfrei bleiben.
Details:
- Datenintegrität: Techniken & Protokolle zur Gewährleistung der Datenqualität
- Qualitätssicherung: Prüfungen & Tests zur Vermeidung und Korrektur von Fehlern
- Wichtige Methoden: Validierung, Verifizierung, Auditing
- Werkzeuge: Checksummen, Datenbanken mit Integritätsbeschränkungen
- Gefährdungen: Datenkorruption, unautorisierte Zugriffe, Hardwarefehler
Datenspeicherung und -archivierung
Definition:
Datenspeicherung: zeitlich befristete Aufbewahrung von Daten. Datenarchivierung: langfristige und revisionssichere Aufbewahrung von Daten.
Details:
- Ziel: Datenintegrität, Verfügbarkeit und Sicherheit gewährleisten.
- Speichermedien: Festplatten, SSDs, magnetische Bänder, Cloud-Speicher.
- Datenformate standardisieren (\textit{XML, CSV, JSON}).
- Gesetzliche Anforderungen beachten (GDPdU, GoBD).
- Backup-Strategien entwickeln (Vollbackup, inkrementell, differenziell).
- Archivierung: Metadaten für schnelle Suche nutzen.
Explorative Datenanalyse
Definition:
Explorative Datenanalyse (EDA) ist ein Ansatz zur Analyse von Datensätzen, um deren Haupteigenschaften visuell zusammenzufassen.
Details:
- Datenvisualisierung: Diagramme, Histogramme, Boxplots
- Statistische Zusammenfassung: Mittelwert, Median, Standardabweichung
- Korrelationen und Beziehungen: Scatterplots, Korrelationsmatrizen
- Outlier-Erkennung: Boxplots, z-Scores
- Hypothesenbildung: Muster und Verteilungen erkennen
- Verwendung von Software: z.B. R, Python (Pandas, Matplotlib, Seaborn)
- Ziel: Verständnis der Datenstruktur und -beziehungen
Maschinelles Lernen und chemische Datenanalysen
Definition:
Maschinelles Lernen wird verwendet, um chemische Daten zu analysieren und Muster sowie Zusammenhänge in großen Datensätzen zu finden.
Details:
- Überwachtes Lernen: Modelle trainieren mit markierten Daten.
- Unüberwachtes Lernen: Daten ohne Label analysieren, z.B. Clusterbildung.
- Regression: Vorhersage kontinuierlicher Werte, z.B. Reaktionsausbeuten.
- Klassifikation: Kategorisieren chemischer Verbindungen.
- Feature Engineering: Wichtige Merkmale aus Rohdaten extrahieren.
- Modellbewertung: Nutzen von Metriken wie RMSE, MAE und F1-Score.
- Algorithmus-Beispiele: Entscheidungsbäume, Random Forest, Künstliche Neuronale Netze.
- Anwendungen: QSAR Modelle, Vorhersage von NMR- und IR-Spektren.
SQL und relationale Datenbanken
Definition:
SQL (Structured Query Language) ist eine Programmiersprache zur Verwaltung und Manipulation von relationalen Datenbanken. Relationale Datenbanken speichern Daten in Tabellen, die in Beziehung zueinander stehen.
Details:
- SQL-Befehle: SELECT, INSERT, UPDATE, DELETE.
- Tabellen besitzen Zeilen (Datensätze) und Spalten (Attribute).
- Normierung reduziert Redundanzen und verbessert Datenintegrität.
- Schlüssel: Primärschlüssel (eindeutige Identifikation), Fremdschlüssel (Beziehung zu anderen Tabellen).
- Joins verbinden Tabellen basierend auf Schlüsseln: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL JOIN.
- Häufig genutzte Aggregate-Funktionen: COUNT, SUM, AVG, MAX, MIN.
Abfrageoptimierung und Performance-Tuning
Definition:
Optimierung von Datenbankabfragen zur Reduzierung der Ausführungszeit und Verbesserung der Systemressourcennutzung.
Details:
- Indexierung: Nutzung von Indizes zur Beschleunigung von Abfragen.
- Query Plan Inspection: Überprüfung und Modifikation des vom DBMS generierten Ausführungsplans.
- Denormalisierung: In bestimmten Fällen zur Reduzierung komplexer Join-Operationen.
- Materialized Views: Vorberechnete Abfragen für häufig genutzte Daten.
- Partitionierung: Aufteilung großer Tabellen zur Verbesserung der Abfragegeschwindigkeit.
- Transaktionen: Minimierung von Sperren durch effizientes Transaktionsmanagement.
- Caching: Zwischenspeichern häufig abgefragter Daten.
Integration von Werkzeugen in den Arbeitsablauf
Definition:
Einbindung von Software-Tools und Technologien in den täglichen Arbeitsprozess zur Effizienzsteigerung im Datenmanagement.
Details:
- Automatisierung: Routineaufgaben können automatisiert werden.
- Interoperabilität: Werkzeuge sollten nahtlos zusammenarbeiten.
- Skalierbarkeit: Lösung muss mit wachsenden Datenmengen umgehen können.
- Benutzerfreundlichkeit: Intuitive Schnittstellen sind wichtig.
- Sicherheit: Datenintegrität und Datenschutz gewährleisten.