Business intelligence - Exam.pdf

Business intelligence - Exam
Business intelligence - Exam Aufgabe 1) Ein mittelständisches Unternehmen, das Haushaltsgeräte herstellt, möchte seine Geschäftsentscheidungen verbessern, indem es Business Intelligence (BI) einsetzt. Dabei sollen interne Verkaufsdaten sowie externe Marktdaten genutzt werden. Das Unternehmen plant den Einsatz verschiedener Analysewerkzeuge und möchte die Ergebnisse in Form von Dashboards und Beric...

© StudySmarter 2024, all rights reserved.

Business intelligence - Exam

Aufgabe 1)

Ein mittelständisches Unternehmen, das Haushaltsgeräte herstellt, möchte seine Geschäftsentscheidungen verbessern, indem es Business Intelligence (BI) einsetzt. Dabei sollen interne Verkaufsdaten sowie externe Marktdaten genutzt werden. Das Unternehmen plant den Einsatz verschiedener Analysewerkzeuge und möchte die Ergebnisse in Form von Dashboards und Berichten präsentieren, um die Entscheidungsfindung, Marktanalyse und Performance-Überwachung zu optimieren. Welche Schritte sind für die Implementierung von BI notwendig und welche Vorteile verspricht der Einsatz?

a)

Erläutere die Schritte des ETL-Prozesses (Extraktion, Transformation, Laden) und diskutiere ihre Bedeutung für die Datenaufbereitung in dem beschriebenen Unternehmenskontext.

Lösung:

  • Extraktion: Der erste Schritt im ETL-Prozess ist die Extraktion der Daten. Dabei werden relevante Daten aus verschiedenen internen und externen Quellen entnommen. Im Kontext des beschriebenen Unternehmens könnten diese Quellen interne Verkaufsdatenbanken, CRM-Systeme, sowie externe Marktdatenquellen umfassen. Ziel ist es, die Daten in ihr Rohformat zu extrahieren und sie in eine Zwischenablage oder ein Staging Area zu überführen.
  • Transformation: In diesem Schritt werden die extrahierten Daten in ein Format umgewandelt, das für die Analyse geeignet ist. Dies kann mehrere Unterprozesse umfassen, wie z.B. Datenbereinigung (Entfernung von Duplikaten und Fehlinformationen), Datenanreicherung (Ergänzung fehlender Informationen), Datenstandardisierung (Harmonisierung von Datenformaten), und die Durchführung komplexer Berechnungen. Für das Unternehmen ist dieser Schritt besonders wichtig, da er sicherstellt, dass die Verkaufsdaten und die externen Marktdaten kompatibel und aussagekräftig sind.
  • Laden: Der letzte Schritt besteht darin, die transformierten Daten in ein Data Warehouse oder einen anderen Speicherort zu laden, wo sie für Analysen und Berichte zur Verfügung stehen. Dies ermöglicht es dem Unternehmen, jederzeit auf aktuelle und historisierte Daten zuzugreifen. Durch den Einsatz von Dashboards und Berichten können Entscheidungsträger schnell und fundiert Entscheidungen treffen, die auf den neuesten Daten basieren.
  • Bedeutung: Der ETL-Prozess ist entscheidend für die Datenaufbereitung, da er sicherstellt, dass sowohl interne als auch externe Daten in einem konsistenten und nutzbaren Format vorliegen. Ohne ihn könnten die Datenanalysen ungenau oder unvollständig sein, was zu falschen Geschäftsentscheidungen führen könnte. Darüber hinaus verbessert ein gut implementierter ETL-Prozess die Effizienz und Zuverlässigkeit der Datenanalyse, was letztlich die Wettbewerbsfähigkeit des Unternehmens stärkt.

b)

Beschreibe die unterschiedlichen Analysewerkzeuge (OLAP, Data Mining, Reporting) und erkläre, wie jedes dieser Werkzeuge dazu beitragen kann, die Verkaufsdaten des Unternehmens und die externen Marktdaten zu analysieren.

Lösung:

  • OLAP (Online Analytical Processing): OLAP-Werkzeuge ermöglichen multidimensionale Analysen von Daten. Diese Werkzeuge erlauben es, Daten aus verschiedenen Perspektiven und Dimensionen zu betrachten und komplexe Abfragen schnell zu beantworten. Für das Unternehmen bedeutet dies, dass Verkaufsdaten hinsichtlich verschiedener Faktoren wie Zeit, Region, Produkttyp, und Vertriebskanal analysiert werden können. Durch Drill-Down- und Roll-Up-Funktionen können Entscheidungsträger tiefere Einblicke gewinnen und Trends oder Muster erkennen, die sonst leicht übersehen werden könnten.
  • Data Mining: Data Mining bezieht sich auf die Anwendung statistischer und maschineller Lerntechniken zur Entdeckung von Mustern und Zusammenhängen in großen Datenmengen. Für das Unternehmen kann dies verwendet werden, um versteckte Informationen in den Verkaufs- und Marktdaten aufzudecken. Beispielsweise könnten durch Data Mining Vorhersagen über zukünftige Verkäufe, Kundenverhalten oder Markttrends gemacht werden. Dies kann das Unternehmen dabei unterstützen, proaktive Entscheidungen zu treffen und Wettbewerbsvorteile zu sichern.
  • Reporting: Reporting-Tools helfen dabei, Daten in verständlichen und aussagekräftigen Formaten darzustellen, wie z.B. in Form von Dashboards, Berichten oder interaktiven visuellen Darstellungen. Diese Werkzeuge ermöglichen es, regelmäßige und ad-hoc Berichte zu erstellen, die aktuelle und historische Daten darstellen. Für das Unternehmen ist dies besonders wertvoll, um die Performance zu überwachen, KPIs zu verfolgen und Entscheidungsprozesse zu unterstützen. Dashboards können den Managern Echtzeit-Einblicke geben und Berichte können detaillierte Analysen für tiefere Untersuchungen liefern.
  • Bedeutung: Jedes dieser Werkzeuge trägt auf unterschiedliche Weise zur Analyse und Optimierung der Unternehmensdaten bei. OLAP bietet detaillierte und schnelle Abfragen, Data Mining deckt versteckte Muster auf und schafft Prognosemöglichkeiten, und Reporting stellt die Daten in leicht verständlicher Form dar. Durch die Integration dieser Werkzeuge kann das Unternehmen fundierte Entscheidungen treffen, Trends frühzeitig erkennen und seine Marktposition effizienter und effektiver stärken.

Aufgabe 2)

Du bist als Business-Analyst für ein Unternehmen tätig, das dabei ist, ein neues Data Warehouse aufzubauen. Dein Team hat verschiedene Datenquellen identifiziert, darunter ein ERP-System, ein CRM-System und mehrere externe Datenquellen (wie z. B. Wetterdaten, demografische Daten usw.). Der ETL-Prozess soll so gestaltet werden, dass alle relevanten Daten in das Data Warehouse übernommen und dabei bereinigt, transformiert und konsolidiert werden. Ziel ist es, eine einheitliche und integrierte Datenbasis für das Reporting und die Analyse durch das Management zu schaffen. Dabei müssen verschiedene Aufgaben im ETL-Prozess effizient und korrekt ausgeführt werden.

a)

Beschreibe den Ablauf des ETL-Prozesses und welche spezifischen Herausforderungen bei der Extraktion der Daten aus den verschiedenen genannten Quellen auftreten können. Nenne mindesten drei mögliche Probleme und biete Lösungen für diese Herausforderungen an.

Lösung:

Ablauf des ETL-Prozesses: Der ETL-Prozess (Extract, Transform, Load) umfasst drei Hauptschritte:

  • Extraktion (Extract): Daten werden aus den verschiedenen Quellen wie dem ERP-System, CRM-System und externen Quellen extrahiert. Dies kann mithilfe von APIs, Datenbankabfragen, FTP-Downloads usw. erfolgen.
  • Transformation (Transform): Die extrahierten Daten werden bereinigt, normalisiert und transformiert. Das beinhaltet z.B. das Entfernen von Duplikaten, Umwandlung von Datentypen und das Vereinheitlichen von Formaten.
  • Load: Die transformierten Daten werden in das Data Warehouse geladen. Dies erfolgt oft durch Batch-Prozesse, die zu bestimmten Zeitpunkten durchgeführt werden.

Herausforderungen bei der Extraktion der Daten und entsprechende Lösungen:

  • Problem 1: Unterschiedliche Datenschemata: Die Datenquellen können unterschiedliche Strukturen und Formate haben. Beispielsweise könnten Kundendaten im CRM-System anders strukturiert sein als im ERP-System. Lösung: Es ist wichtig, ein Mapping-Dokument zu erstellen, das die unterschiedlichen Schemas der Datenquellen standardisiert. Ein ETL-Tool kann eingesetzt werden, um diese Transformationen automatisiert durchzuführen.
  • Problem 2: Schlechte Datenqualität: Daten können unvollständig, inkonsistent oder fehlerhaft sein. Externe Datenquellen wie Wetter- oder demografische Daten können unterschiedliche Genauigkeitsgrade und Aktualitäten aufweisen. Lösung: Implementiere Datenqualitätschecks und Validierungsschritte im ETL-Prozess. Bereinigungsregeln sollten definiert werden, um unvollständige oder fehlerhafte Daten zu korrigieren oder auszufiltern.
  • Problem 3: Datenvolumen und Latenz: Einige Datenquellen werden in Echtzeit aktualisiert, während andere batchweise verarbeitet werden. Das Management großer Datenmengen kann zu Performanceproblemen führen. Lösung: Verwende inkrementelle Ladeverfahren, um nur die geänderten Daten zu extrahieren und zu laden. Das Verwenden von Partitionen und parallelen Ladeverfahren kann helfen, die Performance zu verbessern.

b)

Während der Transformationsphase müssen die Daten bereinigt und in ein einheitliches Format gebracht werden. Erkläre, welche Arten von Transformationen notwendig sein könnten und wie Du sicherstellen würdest, dass die Daten nach der Transformation konsistent sind. Gib konkrete Beispiele von Transformationen, die Du durchführen würdest.

Lösung:

Transformationen in der ETL-Phase: Während der Transformationsphase müssen die Daten bereinigt, normalisiert und in ein einheitliches Format gebracht werden. Dies ist entscheidend, um konsistente und verlässliche Daten für das Reporting und die Analyse zu gewährleisten. Hier sind einige spezifische Arten von Transformationen, die notwendig sein könnten:

  • Datentyp-Konvertierung: Unterschiedliche Datenquellen könnten verschiedene Datentypen für dieselben Informationen verwenden. Zum Beispiel könnte das Geburtsdatum eines Kunden in einem System als String und in einem anderen als Date-Typ gespeichert sein. Die Konvertierung dieser Daten in einen einheitlichen Datentyp ist notwendig. Beispiel: Konvertiere das Geburtsdatum von String ('01-01-1990') in das Date-Format (1990-01-01).
  • Datenbereinigung: Entfernen von Duplikaten, fehlenden Werten und fehlerhaften Datensätzen. Dies ist unerlässlich, um die Datenqualität zu gewährleisten. Beispiel: Entferne alle Datensätze, in denen das Feld „E-Mail-Adresse“ leer ist.
  • Standardisierung: Vereinheitlichung von Datenformaten und Einheiten, damit sie über alle Systeme hinweg konsistent sind. Beispiel: Standardisiere Telefonnummernformate, indem Du alle Telefonnummern in das Format '+49-xxxx-xxxx' bringst.
  • Normalisierung: Aufteilung von Daten in mehrere Tabellen, um Redundanz zu vermeiden und Datenintegrität zu gewährleisten. Beispiel: Spalte eine Adresse in separate Felder für Straße, Stadt, Bundesland und Postleitzahl auf.
  • Datenaggregation: Kombination und Summierung von Daten, um neue aussagekräftige Metriken zu generieren. Beispiel: Summiere die monatlichen Verkaufszahlen auf Jahresbasis auf.
  • Codierung und Nachschlagen: Verwendung von Nachschlagetabellen oder Codierungen, um abstrakte Werte in verständliche Informationen umzuwandeln. Beispiel: Verwandle einen Kundenstatuscode (z.B. 'A') in eine verständliche Bezeichnung (z.B. 'Aktiv').

Sicherstellung der Datenkonsistenz nach der Transformation:

  • Datenvalidierung: Implementiere Validierungsregeln, um sicherzustellen, dass die Daten nach der Transformation korrekt sind. Überprüfe z.B., dass alle Telefonnummern dem Standardformat entsprechen.
  • Referentielle Integrität: Verwende Primär- und Fremdschlüssel, um sicherzustellen, dass alle Verweise zwischen Tabellen korrekt sind.
  • Logging und Auditing: Protokolliere alle Transformationsschritte und auditiere regelmäßig die Daten, um sicherzustellen, dass die Transformationsregeln korrekt angewendet wurden.
  • Regressionstests: Führe regelmäßige Tests durch, um sicherzustellen, dass neue Transformationsregeln bestehende Daten nicht inkonsistent machen.
  • Automatisierte Tests: Setze automatisierte Tests ein, um Transformationsergebnisse gegen erwartete Ergebnisse zu prüfen.

c)

Berechne die benötigte Zeit, um einen Datensatz von 1 GB vom ERP-System zu extrahieren, wenn die Netzwerkbandbreite 50 Mbps beträgt. Zeige alle Rechenschritte detailliert auf. In Deinem Ergebnis solltest Du die Gesamtzeit in Sekunden angeben.

Lösung:

Berechnung der benötigten Zeit zur Extraktion eines Datensatzes von 1 GB bei einer Netzwerkbandbreite von 50 Mbps:

  • Schritt 1: Umrechnung der Datengröße von Gigabyte (GB) in Bits.
  • Schritt 2: Berechnung der benötigten Zeit, indem die Datenmenge (in Bits) durch die Netzwerkbandbreite (in Bits pro Sekunde) geteilt wird.

Umrechnung der Datengröße:

Ein Gigabyte (GB) entspricht:

  • 1 GB = 1.073.741.824 Bytes (da 1 GB = 2^{30} Bytes)
  • Da 1 Byte = 8 Bits, ergibt sich die Datengröße in Bits:
  • 1.073.741.824 Bytes × 8 Bits/Byte = 8.589.934.592 Bits

Umrechnung der Netzwerkbandbreite:

Die Netzwerkbandbreite beträgt 50 Megabits pro Sekunde (Mbps). Da 1 Mbps = 1.000.000 Bits pro Sekunde:

  • 50 Mbps = 50 × 1.000.000 Bits pro Sekunde = 50.000.000 Bits pro Sekunde

Berechnung der benötigten Zeit:

Die Zeit (in Sekunden) lässt sich berechnen mit:

  • \[\text{Zeit (Sekunden)} = \frac{\text{Datenmenge (Bits)}}{\text{Netzwerkbandbreite (Bits pro Sekunde)}}\]
  • \[\text{Zeit (Sekunden)} = \frac{8.589.934.592}{50.000.000}\]
  • \[\text{Zeit (Sekunden)} = 171,8\]

Das aufgerundete Ergebnis lautet: 172 Sekunden

d)

Nach dem Laden der Daten in das Data Warehouse ist es wichtig, die Daten auf Konsistenz und Vollständigkeit zu überprüfen. Nenne und erkläre mindestens zwei Techniken, die Du anwenden könntest, um sicherzustellen, dass alle Daten korrekt und vollständig übertragen wurden. Berücksichtige dabei auch Aspekte der Datenqualität.

Lösung:

Techniken zur Überprüfung von Konsistenz und Vollständigkeit der Daten nach dem Laden in das Data Warehouse:

  • Reconciliation (Abstimmung) der Daten:Die Datenabstimmung stellt sicher, dass die geladenen Daten mit den Daten aus den Quellsystemen übereinstimmen. Dies beinhaltet den Vergleich der Daten auf Aggregationsebene sowie die Prüfung einzelner Datensätze.
    • Technik: Vergleiche aggregierte Werte (z.B. Summen, Durchschnittswerte) der Quelldaten mit den aggregierten Werten im Data Warehouse. Dies hilft, grobe Diskrepanzen zu identifizieren.Beispiel: Wenn die Summe der Transaktionsbeträge in einem Monat im ERP-System 500.000 Euro beträgt, sollte die Summe dieser Transaktionen auch im entsprechenden Bereich des Data Warehouse 500.000 Euro betragen.
    • Technik: Stichprobenartige Überprüfung einzelner Datensätze, um sicherzustellen, dass die spezifischen Daten korrekt übertragen wurden.Beispiel: Wähle zufällig einige Datensätze aus dem ERP-System aus und vergleiche diese mit den entsprechenden Datensätzen im Data Warehouse.
  • Vollständigkeitsprüfung:Diese Technik stellt sicher, dass alle relevanten Datensätze korrekt und vollständig in das Data Warehouse geladen wurden.
    • Technik: Vergleiche die Anzahl der Datensätze in den Quellsystemen mit der Anzahl der Datensätze im Data Warehouse. Bei Abweichungen muss untersucht werden, wo Daten fehlen.Beispiel: Wenn das CRM-System 100.000 Kundendatensätze enthält, sollten genau diese 100.000 Datensätze auch im entsprechenden Bereich des Data Warehouse vorhanden sein.
  • Datenvalidierung und -qualitätsprüfungen:Validierungsregeln werden definiert, um die Qualität und Konsistenz der Daten sicherzustellen. Diese Regeln können automatisiert und regelmäßig durchgeführt werden.
    • Technik: Validierungsregeln können u.a. prüfen, ob alle Pflichtfelder gefüllt sind, ob Datenformate eingehalten werden und ob es keinerlei doppelte Einträge gibt.Beispiel: Eine Validierungsregel könnte sicherstellen, dass alle E-Mail-Felder das richtige Format (z.B. 'name@domain.com') haben und keine Duplikate vorhanden sind.
  • Referentielle Integrität:Sicherstellung, dass alle Verweise zwischen den Daten korrekt sind, um Datenkonsistenz zu gewährleisten.
    • Technik: Verwende Primär- und Fremdschlüssel, um Beziehungen zwischen Datensätzen zu überprüfen. Jeder Fremdschlüsselwert sollte in der referenzierten Tabelle vorhanden sein.Beispiel: In einer Bestellungstabelle sollte jede Kunden-ID, die als Fremdschlüssel verwendet wird, in der Kundentabelle vorhanden sein.

Diese Techniken sind wichtige Schritte zur Sicherstellung einer hohen Datenqualität im Data Warehouse und helfen, präzise und zuverlässige Informationen für Reporting und Analyse bereitzustellen.

Aufgabe 3)

Data Warehouses sind ein zentrales Konzept im Bereich Business Intelligence und spielen eine wesentliche Rolle bei der Unterstützung von datengetriebenen Entscheidungen durch Decision Support Systems (DSS). Ein Data Warehouse beinhaltet verschiedene Schichten wie Datenquelle, Staging, Datenlager und Data Marts. Ein wesentlicher Bestandteil des Data Warehouses ist der ETL-Prozess (Extract, Transform, Load), der sicherstellt, dass die Daten korrekt extrahiert, transformiert und geladen werden. Verschiedene Datenmodellierungstechniken wie Normalisierung, Denormalisierung, sowie das Stern- und Schneeflockenschema werden verwendet, um Daten effizient zu speichern. Darüber hinaus ermöglicht Online Analytical Processing (OLAP) die multidimensionale Abfrage und Analyse großer Datenbestände. Metadata und Data Governance sind ebenfalls wesentliche Komponenten für ein effektives Datenmanagement.

a)

  • Erkläre den ETL-Prozess (Extract, Transform, Load) und beschreibe jede Phase im Kontext eines Data Warehouses. Wie tragen diese Phasen dazu bei, die Qualität und Integrität der Daten zu gewährleisten? Nenne konkrete Beispiele aus der Praxis.

Lösung:

Data Warehouses sind ein zentrales Konzept im Bereich Business Intelligence und spielen eine wesentliche Rolle bei der Unterstützung von datengetriebenen Entscheidungen durch Decision Support Systems (DSS). Ein Data Warehouse beinhaltet verschiedene Schichten wie Datenquelle, Staging, Datenlager und Data Marts. Ein wesentlicher Bestandteil des Data Warehouses ist der ETL-Prozess (Extract, Transform, Load), der sicherstellt, dass die Daten korrekt extrahiert, transformiert und geladen werden. Verschiedene Datenmodellierungstechniken wie Normalisierung, Denormalisierung, sowie das Stern- und Schneeflockenschema werden verwendet, um Daten effizient zu speichern. Darüber hinaus ermöglicht Online Analytical Processing (OLAP) die multidimensionale Abfrage und Analyse großer Datenbestände. Metadata und Data Governance sind ebenfalls wesentliche Komponenten für ein effektives Datenmanagement.

  • Erklärung des ETL-Prozesses:

    1. Extract (Extraktion):

    Die Extraktionsphase beinhaltet das Sammeln von Daten aus verschiedenen Quellen wie Datenbanken, CRM-Systemen, ERP-Systemen, flachen Dateien (CSV, JSON etc.) und Webservices. Ziel ist es, alle relevanten Daten zu finden und in ein gemeinsames Repository zu übertragen.Beispiel: Ein Unternehmen kann Verkaufsdaten aus einem CRM-System und Lagerbestandsdaten aus einem ERP-System extrahieren.

    2. Transform (Transformation):

    In der Transformationsphase werden die extrahierten Daten bereinigt und transformiert, um sie in ein einheitliches Format zu bringen, das für Analysen und Berichte geeignet ist. Dies kann Datenanreicherung, Datenaggregation, Datenbereinigung und das Entfernen von Duplikaten beinhalten. Es folgt häufig der Einsatz von Skripten oder ETL-Tools, um diese Transformationen durchzuführen.Beispiel: Die Verkaufspreise werden gegebenenfalls in eine einheitliche Währung umgerechnet und Datumsformate werden standardisiert.

    3. Load (Ladung):

    Die Ladephase umfasst das Laden der transformierten Daten in das endgültige Data Warehouse. Dies kann als vollständige Ladung oder als inkrementelle Ladung erfolgen. Die Daten werden üblicherweise in vordefinierte Tabellen und Schema eingespielt.Beispiel: Nach der Umrechnung der Verkaufspreise und der Standardisierung der Datumsformate werden die Daten in eine Tabelle 'Verkäufe' im Data Warehouse geladen.

    Datenqualität und -integrität:

    Das ETL-Verfahren trägt wesentlich zur Qualität und Integrität der Daten bei, da es sicherstellt, dass die Daten:
    • Korrekt: Bereinigt und überprüft werden, um Fehler und Inkonsistenzen zu minimieren.
    • Vollständig: Alle notwendigen Daten aus den relevanten Quellen werden extrahiert und transformiert.
    • Konsistent: Die Daten werden in ein einheitliches Format gebracht, um Vergleichbarkeit und Verlässlichkeit zu gewährleisten.
    • Aktuell: Durch regelmäßige inkrementelle Ladungen wird das Data Warehouse auf dem neuesten Stand gehalten.

b)

  • Diskutiere die Vor- und Nachteile des Stern- und Schneeflockenschemas bei der Datenmodellierung in einem Data Warehouse. Erkläre anhand eines Beispiels, wie beide Modelle implementiert werden können, und welche Auswirkungen sie auf die Performanz und Abfragemöglichkeiten haben können. Berechne die Speicherplatzanforderungen für ein einfaches Beispiel bezüglich beider Modelle. Angenommen, Du hast eine Faktentabelle mit 1 Million Zeilen und jede Dimensionstabelle hat 1000 Zeilen und 10 Spalten. Jede Spalte nimmt 4 Bytes Speicher in Anspruch.

Lösung:

Data Warehouses sind ein zentrales Konzept im Bereich Business Intelligence und spielen eine wesentliche Rolle bei der Unterstützung von datengetriebenen Entscheidungen durch Decision Support Systems (DSS). Ein Data Warehouse beinhaltet verschiedene Schichten wie Datenquelle, Staging, Datenlager und Data Marts. Ein wesentlicher Bestandteil des Data Warehouses ist der ETL-Prozess (Extract, Transform, Load), der sicherstellt, dass die Daten korrekt extrahiert, transformiert und geladen werden. Verschiedene Datenmodellierungstechniken wie Normalisierung, Denormalisierung, sowie das Stern- und Schneeflockenschema werden verwendet, um Daten effizient zu speichern. Darüber hinaus ermöglicht Online Analytical Processing (OLAP) die multidimensionale Abfrage und Analyse großer Datenbestände. Metadata und Data Governance sind ebenfalls wesentliche Komponenten für ein effektives Datenmanagement.

  • Diskussion der Vor- und Nachteile des Stern- und Schneeflockenschemas:

    Sternschema:

    • Vorteile:
      • Einfacheres Design: Das Sternschema ist aufgrund seiner flachen Struktur leicht zu verstehen und zu implementieren.
      • Bessere Abfrageperformance: Da alle Dimensionen direkt mit der Faktentabelle verbunden sind, erfordert das Abfragen weniger Joins, was die Abfragegeschwindigkeit erhöht.
    • Nachteile:
      • Redundanz: Durch die Wiederholung von Daten in Dimensionstabellen kann es zu Dateninkonsistenzen und erhöhter Speicherplatznutzung kommen.
      • Weniger flexible Erweiterungsmöglichkeiten: Änderungen und Erweiterungen des Datenmodells können komplizierter sein, da alle Dimensionen direkt mit der Faktentabelle verbunden sind.

    Schneeflockenschema:

    • Vorteile:
      • Geringerer Speicherplatzbedarf: Durch die Normalisierung werden Redundanzen reduziert, was den Speicherplatzbedarf senkt.
      • Bessere Datenkonsistenz: Normalisierte Dimensionstabellen sorgen für eine konsistentere und strukturierte Datenhaltung.
    • Nachteile:
      • Komplexeres Design: Das Schneeflockenschema ist aufgrund seiner mehrstufigen Struktur schwieriger zu verstehen und zu implementieren.
      • Schlechtere Abfrageperformance: Durch die zusätzlichen Joins zwischen den Tabellen kann die Abfrageperformance reduziert werden.

    Beispielimplementierung:

    Sternschema:

    • Faktentabelle: Enthält 1 Million Zeilen, jede Zeile hat Verweise auf alle Dimensionstabellen (z.B. Produkt, Kunde, Zeit).
    • Dimensionstabellen: Jede Dimensionstabelle hat 1000 Zeilen und 10 Spalten, wobei jede Spalte 4 Bytes Speicherplatz benötigt.

    Schneeflockenschema:

    • Faktentabelle: Enthält ebenfalls 1 Million Zeilen, jede Zeile hat Verweise auf normalisierte Dimensionstabellen und deren Sub-Dimensionen.
    • Dimensionstabellen: Die einzelnen Dimensionstabellen sind weiter normalisiert, was zu zusätzlichen Tabellen und weniger Redundanz führt.

    Speicherplatzberechnung:

    Sternschema:

    • Faktentabelle: Wenn jede Zeile Verweise auf 3 Dimensionen (Produkt, Kunde, Zeit) hat und jede Verweisung 4 Bytes Speicher braucht, dann ist der Speicherplatzbedarf: 1 Millionen Zeilen x 3 Verweise x 4 Bytes = 12 MB
    • Dimensionstabellen: Jede Dimensionstabelle hat 1000 Zeilen und 10 Spalten, wobei jede Spalte 4 Bytes benötigt: 3 Dimensionstabellen x 1000 Zeilen x 10 Spalten x 4 Bytes = 0,12 MB Insgesamt: 12 MB + 0,12 MB = 12,12 MB

    Schneeflockenschema:

    • Faktentabelle: Wenn jede Zeile Verweise auf normalisierte Dimensionen hat und wir annehmen, dass jedes normalisierte Attribut etwa 2 zusätzliche Joins benötigt, dann ist der Speicherplatzbedarf:
    • Verweise bleiben gleich: 1 Million Zeilen x 3 Verweise x 4 Bytes = 12 MB
    • Normalisierte Dimensionstabellen: Normalisierung führt zu reduzierten Redundanzen. Wir gehen davon aus, dass die normalisierten Dimensionstabellen etwa die Hälfte des Speicherplatzes der originalen Dimensionstabellen verbrauchen:
    • 3 Dimensionstabellen x 1000 Zeilen x 10 Spalten x 4 Bytes x 0,5 = 0,06 MB Insgesamt: 12 MB + 0,06 MB = 12,06 MB

    Fazit:

    • Das Sternschema bietet Vorteile in Bezug auf Abfragegeschwindigkeit und Einfachheit, besonders für Ad-hoc-Analysen.
    • Das Schneeflockenschema ist besser für die Datenkonsistenz und den Speicherplatz geeignet, jedoch auf Kosten der Abfrageperformance.

Aufgabe 4)

OLAP (Online Analytical Processing) ist eine Methode zur schnellen Auswertung und Analyse großer Datenmengen in multidimensionalen Datenbanken. Diese Methode bietet verschiedene Funktionalitäten und Vorteile, darunter:

  • Multidimensionale Sichten auf die Daten (Würfelstruktur)
  • Unterstützung komplexer Abfragen (z.B. Slices, Dices, Drills)
  • Schnelle Aggregationen und Berechnungen

OLAP hat zahlreiche Vorteile: es spart Zeit, bietet eine bessere Entscheidungsgrundlage und sorgt für höhere Datenqualität. Typische Anwendungsbereiche sind z.B. Finanzanalyse, Vertriebsprognosen und Marktforschung.

a)

Erkläre die Bedeutung der multidimensionalen Sichten in OLAP und wie die Würfelstruktur dazu beiträgt, komplexe Abfragen effizienter zu gestalten.

Lösung:

Multidimensionale Sichten in OLAP (Online Analytical Processing) sind eine essentielle Komponente, die es Analysten und Entscheidungsträgern ermöglicht, Daten aus verschiedenen Perspektiven und Dimensionen zu betrachten und zu analysieren. Diese Sichten basieren auf einer Würfelstruktur, oft als OLAP-Würfel bezeichnet.

  • Würfelstruktur: Die Würfelstruktur in OLAP organisiert Daten in einem mehrdimensionalen Raum, bei dem jede Dimension eine verschiedene Kategorie oder Perspektive der Daten darstellt. Zum Beispiel könnten die Dimensionen eines Würfels für Umsatzdaten Zeit, Geographie und Produkt umfassen. Jede Kombination dieser Dimensionen gibt eine einzelne Zelle im Würfel an, die eine spezifische Metrik enthält, wie z.B. den Umsatzwert.
  • Effizienz bei komplexen Abfragen:Die Verwendung der Würfelstruktur ermöglicht es OLAP-Systemen, komplexe Abfragen effizient zu gestalten. Verschiedene Operationen wie Slice, Dice und Drill sind entscheidend:
    • Slice: Ein Slice ist eine zweidimensionale Ansicht eines Würfels, die durch Fixierung eines Wertes in einer Dimension entsteht. Zum Beispiel: Betrachte die Umsätze eines bestimmten Jahres (Zeitdimension fixiert).
    • Dice: Ein Dice ist eine subkube, der durch das Festlegen eines bestimmten Wertebereichs in zwei oder mehr Dimensionen entsteht. Zum Beispiel: Betrachtung der Umsätze für bestimmte Produkte in bestimmten Regionen über mehrere Jahre.
    • Drill: Die Drill-Operation ermöglicht das Navigieren durch die Daten auf verschiedenen Detail- und Aggregationsebenen. Dazu gehören etwa Drill-Down (Übergang von groben zu detaillierteren Daten, z.B. Quartal zu Monat) und Drill-Up (Übergang von detaillierten zu aggregierten Daten, z.B. Monat zu Jahr).
  • Vorteile der Würfelstruktur: Die Struktur eines OLAP-Würfels führt zu schneller Datenaggregation und -berechnung, indem sie vordefinierte Aggregationen speichert. Außerdem spart dieser Ansatz wertvolle Zeit beim Durchsuchen großer Datenmengen.
  • Zusammenfassung: Die multidimensionale Sichtweise im OLAP und die dazugehörige Würfelstruktur machen es möglich, große Mengen an Daten auf intuitive und effiziente Weise zu analysieren, indem sie komplexe Abfragen und schnelle Aggregationen und Berechnungen unterstützen.

b)

Beschreibe die Konzepte von 'Slice', 'Dice' und 'Drill' in OLAP. Gib detaillierte Beispiele für jede dieser Operationen mithilfe eines fiktiven Datensatzes aus dem Bereich der Marktforschung.

Lösung:

Die Konzepte von 'Slice', 'Dice' und 'Drill' sind grundlegende Operationen in OLAP (Online Analytical Processing), die verschiedene Möglichkeiten bieten, Daten zu analysieren und abzufragen. Im Folgenden werde ich diese Konzepte detailliert beschreiben und Beispiele aus dem Bereich der Marktforschung verwenden.

  • Slice: Die Slice-Operation extrahiert eine zweidimensionale Teilmenge (Schicht) aus einem mehrdimensionalen Würfel, indem eine Dimension fixiert wird. Beispiel: Angenommen, wir haben einen OLAP-Würfel mit den Dimensionen Zeit (mit den Hierarchien Jahr, Quartal, Monat), Produkt, und Region. Wenn wir nur die Daten für das zweite Quartal (Q2) des Jahres 2022 betrachten möchten, würden wir einen Slice für Q2 2022 bilden. Dies würde eine zweidimensionale Tabelle ergeben, die den Umsatz der verschiedenen Produkte in den verschiedenen Regionen im zweiten Quartal 2022 anzeigt.
  • Dice: Die Dice-Operation extrahiert eine subkube aus einem mehrdimensionalen Würfel, indem bestimmte Wertebereiche in zwei oder mehr Dimensionen festgelegt werden. Beispiel: Bei dem gleichen OLAP-Würfel könnten wir einen Dice für das Jahr 2022 und die Produkte 'A' und 'B' in den Regionen 'Nord' und 'Süd' erstellen. Dies würde eine dreidimensionale Untergruppe darstellen, die den Umsatz dieser spezifischen Produkte in diesen Regionen für das Jahr 2022 zeigt.
  • Drill: Die Drill-Operation ermöglicht das Navigieren durch verschiedene Detail- oder Aggregationsebenen der Daten. Die Drill-Operation kann in zwei Richtungen erfolgen: Drill-Down und Drill-Up.
    • Drill-Down: Bezieht sich auf den Übergang zu detaillierteren Datenebenen. Beispiel: In einer Marktforschung möchten wir die Übersicht der Jahresumsätze für 2022 genauer untersuchen. Ein Drill-Down auf Monatsbasis innerhalb des Jahres 2022 würde uns die Umsätze für jeden einzelnen Monat von 2022 zeigen.
    • Drill-Up: Bezieht sich auf den Übergang zu allgemeineren Datenebenen. Beispiel: Wenn wir die Umsätze auf monatlicher Basis für ein Jahr betrachtet haben, können wir einen Drill-Up auf die Quartalsebene vornehmen, um die Umsätze für jedes Quartal zu sehen anstatt für jeden einzelnen Monat.

Zusammenfassung:

  • Slice: Fixiert eine Dimension, um eine zweidimensionale Ansicht zu erhalten.
  • Dice: Wählt spezifische Wertebereiche in mehreren Dimensionen, um eine subkube zu erstellen.
  • Drill: Navigiert zwischen verschiedenen Aggregationsebenen, um detailliertere oder allgemeinere Datenansichten zu erhalten.

c)

Angenommen, ein Unternehmen verwendet OLAP für Vertriebsprognosen. Formuliere eine Abfrage mithilfe von Slice und Dice, um die monatlichen Verkaufszahlen für ein bestimmtes Produkt in einer bestimmten Region über das letzte Jahr darzustellen.

Lösung:

Um eine Abfrage zu formulieren, die mithilfe von Slice und Dice die monatlichen Verkaufszahlen für ein bestimmtes Produkt in einer bestimmten Region über das letzte Jahr darstellt, gehen wir wie folgt vor:

  1. Slice: Da wir an den monatlichen Verkaufszahlen interessiert sind, fixieren wir die Dimension Jahr auf das letzte Jahr (z.B. 2022). Dies wäre der erste Schritt, um eine zweidimensionale Schnittmenge zu erstellen.
  2. Dice: Anschließend verwenden wir die Dimensionen Produkt und Region, um die spezifischen Werte einzugrenzen. Angenommen, das Produkt ist 'Produkt X' und die Region ist 'Region Y', wählen wir diese Werte aus, um eine Untergruppe der Daten zu erhalten.

In OLAP-Sprache könnte die Abfrage folgendermaßen aussehen:

  • Slice: Jahr = 2022
  • Dice: Produkt = 'Produkt X' und Region = 'Region Y'

Das Ergebnis dieser Abfrage wäre eine Tabelle, die die monatlichen Verkaufszahlen für 'Produkt X' in 'Region Y' über das gesamte Jahr 2022 zeigt:

MonatVerkaufszahlen
JanuarVerkaufzahlen Januar
FebruarVerkaufzahlen Februar
MärzVerkaufzahlen März
AprilVerkaufzahlen April
MaiVerkaufzahlen Mai
JuniVerkaufzahlen Juni
JuliVerkaufzahlen Juli
AugustVerkaufzahlen August
SeptemberVerkaufzahlen September
OktoberVerkaufzahlen Oktober
NovemberVerkaufzahlen November
DezemberVerkaufzahlen Dezember

Zusammengefasst erstellt die Kombination von Slice und Dice eine spezifische Untergruppe innerhalb des Datenwürfels, die es ermöglicht, die gewünschten Einsichten und Analysen zu generieren. Im Beispiel zeigt die resultierende Tabelle die monatlichen Verkaufszahlen für 'Produkt X' in 'Region Y' für das Jahr 2022.

Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden