Datenmanagement - Cheatsheet.pdf

Datenmanagement - Cheatsheet
Datenmanagement - Cheatsheet Datenhierarchien und -strukturen Definition: Organisieren von Daten in unterschiedlichen Ebenen und Strukturen zur effizienten Verwaltung und Analyse Details: Ebene 1: Bits und Bytes Ebene 2: Felder und Datensätze Ebene 3: Dateien und Tabellen Ebene 4: Datenbanken und Data Warehouses Baumstrukturen: Darstellung hierarchischer Beziehungen \textbf{Graphentheorie:} Nutzun...

© StudySmarter 2024, all rights reserved.

Datenmanagement - Cheatsheet

Datenhierarchien und -strukturen

Definition:

Organisieren von Daten in unterschiedlichen Ebenen und Strukturen zur effizienten Verwaltung und Analyse

Details:

  • Ebene 1: Bits und Bytes
  • Ebene 2: Felder und Datensätze
  • Ebene 3: Dateien und Tabellen
  • Ebene 4: Datenbanken und Data Warehouses
  • Baumstrukturen: Darstellung hierarchischer Beziehungen
  • \textbf{Graphentheorie:} Nutzung von Graphen zur Datenstrukturierung
  • \textbf{JSON:} Textbasiertes Format zur Datenrepräsentation
  • \textbf{XML:} Markup-Sprache zur Datenstrukturierung
  • Datenzugriff: \textbf{SQL} für relationale Datenbanken

Datenintegrität und Qualitätssicherung

Definition:

Sicherstellung, dass Daten korrekt, konsistent und fehlerfrei bleiben.

Details:

  • Datenintegrität: Techniken & Protokolle zur Gewährleistung der Datenqualität
  • Qualitätssicherung: Prüfungen & Tests zur Vermeidung und Korrektur von Fehlern
  • Wichtige Methoden: Validierung, Verifizierung, Auditing
  • Werkzeuge: Checksummen, Datenbanken mit Integritätsbeschränkungen
  • Gefährdungen: Datenkorruption, unautorisierte Zugriffe, Hardwarefehler

Datenspeicherung und -archivierung

Definition:

Datenspeicherung: zeitlich befristete Aufbewahrung von Daten. Datenarchivierung: langfristige und revisionssichere Aufbewahrung von Daten.

Details:

  • Ziel: Datenintegrität, Verfügbarkeit und Sicherheit gewährleisten.
  • Speichermedien: Festplatten, SSDs, magnetische Bänder, Cloud-Speicher.
  • Datenformate standardisieren (\textit{XML, CSV, JSON}).
  • Gesetzliche Anforderungen beachten (GDPdU, GoBD).
  • Backup-Strategien entwickeln (Vollbackup, inkrementell, differenziell).
  • Archivierung: Metadaten für schnelle Suche nutzen.

Explorative Datenanalyse

Definition:

Explorative Datenanalyse (EDA) ist ein Ansatz zur Analyse von Datensätzen, um deren Haupteigenschaften visuell zusammenzufassen.

Details:

  • Datenvisualisierung: Diagramme, Histogramme, Boxplots
  • Statistische Zusammenfassung: Mittelwert, Median, Standardabweichung
  • Korrelationen und Beziehungen: Scatterplots, Korrelationsmatrizen
  • Outlier-Erkennung: Boxplots, z-Scores
  • Hypothesenbildung: Muster und Verteilungen erkennen
  • Verwendung von Software: z.B. R, Python (Pandas, Matplotlib, Seaborn)
  • Ziel: Verständnis der Datenstruktur und -beziehungen

Maschinelles Lernen und chemische Datenanalysen

Definition:

Maschinelles Lernen wird verwendet, um chemische Daten zu analysieren und Muster sowie Zusammenhänge in großen Datensätzen zu finden.

Details:

  • Überwachtes Lernen: Modelle trainieren mit markierten Daten.
  • Unüberwachtes Lernen: Daten ohne Label analysieren, z.B. Clusterbildung.
  • Regression: Vorhersage kontinuierlicher Werte, z.B. Reaktionsausbeuten.
  • Klassifikation: Kategorisieren chemischer Verbindungen.
  • Feature Engineering: Wichtige Merkmale aus Rohdaten extrahieren.
  • Modellbewertung: Nutzen von Metriken wie RMSE, MAE und F1-Score.
  • Algorithmus-Beispiele: Entscheidungsbäume, Random Forest, Künstliche Neuronale Netze.
  • Anwendungen: QSAR Modelle, Vorhersage von NMR- und IR-Spektren.

SQL und relationale Datenbanken

Definition:

SQL (Structured Query Language) ist eine Programmiersprache zur Verwaltung und Manipulation von relationalen Datenbanken. Relationale Datenbanken speichern Daten in Tabellen, die in Beziehung zueinander stehen.

Details:

  • SQL-Befehle: SELECT, INSERT, UPDATE, DELETE.
  • Tabellen besitzen Zeilen (Datensätze) und Spalten (Attribute).
  • Normierung reduziert Redundanzen und verbessert Datenintegrität.
  • Schlüssel: Primärschlüssel (eindeutige Identifikation), Fremdschlüssel (Beziehung zu anderen Tabellen).
  • Joins verbinden Tabellen basierend auf Schlüsseln: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL JOIN.
  • Häufig genutzte Aggregate-Funktionen: COUNT, SUM, AVG, MAX, MIN.

Abfrageoptimierung und Performance-Tuning

Definition:

Optimierung von Datenbankabfragen zur Reduzierung der Ausführungszeit und Verbesserung der Systemressourcennutzung.

Details:

  • Indexierung: Nutzung von Indizes zur Beschleunigung von Abfragen.
  • Query Plan Inspection: Überprüfung und Modifikation des vom DBMS generierten Ausführungsplans.
  • Denormalisierung: In bestimmten Fällen zur Reduzierung komplexer Join-Operationen.
  • Materialized Views: Vorberechnete Abfragen für häufig genutzte Daten.
  • Partitionierung: Aufteilung großer Tabellen zur Verbesserung der Abfragegeschwindigkeit.
  • Transaktionen: Minimierung von Sperren durch effizientes Transaktionsmanagement.
  • Caching: Zwischenspeichern häufig abgefragter Daten.

Integration von Werkzeugen in den Arbeitsablauf

Definition:

Einbindung von Software-Tools und Technologien in den täglichen Arbeitsprozess zur Effizienzsteigerung im Datenmanagement.

Details:

  • Automatisierung: Routineaufgaben können automatisiert werden.
  • Interoperabilität: Werkzeuge sollten nahtlos zusammenarbeiten.
  • Skalierbarkeit: Lösung muss mit wachsenden Datenmengen umgehen können.
  • Benutzerfreundlichkeit: Intuitive Schnittstellen sind wichtig.
  • Sicherheit: Datenintegrität und Datenschutz gewährleisten.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden