Lerninhalte finden
Features
Entdecke
© StudySmarter 2024, all rights reserved.
Datenbereinigung und -managementEin Unternehmen kann mithilfe der Datenbereinigung und des Datenmanagements die Qualität von Daten verbessern und so eine verlässliche Grundlage für empirische Analysen schaffen. Angenommen, Du hast ein Datensatz mit Kundeninformationen, der folgende Probleme aufweist: Fehlende Werte in der Spalte 'Alter', Duplikate in der Spalte 'Kunden-ID' und inkonsistente Formate in der Spalte 'Kaufdatum'.Du verwendest die Programmiersprache Python, um diesen Datensatz zu bereinigen und zu verwalten.
(a) Beschreibe die Schritte, die Du unternehmen würdest, um den genannten Datensatz zu bereinigen. Gehe dabei insbesondere auf folgende Punkte ein:
Lösung:
(a) Um den Datensatz zu bereinigen, gehe ich wie folgt vor:
'import pandas as pddf = pd.read_csv('kunden_daten.csv')duplikate = df[df.duplicated(subset=['Kunden-ID'])]'
'df = df.drop_duplicates(subset=['Kunden-ID'])'
'df['Kaufdatum'] = pd.to_datetime(df['Kaufdatum'], errors='coerce')'
'df['Kaufdatum'] = df['Kaufdatum'].dt.strftime('%Y-%m-%d')'
(b) Implementiere die Datenbereinigungsschritte in Python, um den beschriebenen Datensatz zu bereinigen. Der Beispiel-Datensatz sieht wie folgt aus:
import pandas as pdimport numpy as npdata = {'Kunden-ID': [1, 2, 2, 4, 5], 'Alter': [25, np.nan, 37, 29, 40], 'Kaufdatum': ['2020-01-01', '01.02.2020', '2020-03-01', '2020/03/01', '04-01-2020']}df = pd.DataFrame(data)print(df)
Lösung:
(b) Hier ist eine vollständige Implementierung der Datenbereinigungsschritte in Python, um den beschriebenen Datensatz zu bereinigen:
import pandas as pdimport numpy as np# Beispiel-Daten erstellendata = {'Kunden-ID': [1, 2, 2, 4, 5], 'Alter': [25, np.nan, 37, 29, 40], 'Kaufdatum': ['2020-01-01', '01.02.2020', '2020-03-01', '2020/03/01', '04-01-2020']}df = pd.DataFrame(data)# Originaldaten anzeigenprint('Originaldaten:')print(df)# 1. Fehlende Werte im 'Alter'-Feld behandeln (hier: Ersetzen durch den Median-Wert)median_alter = df['Alter'].median()df['Alter'].fillna(median_alter, inplace=True)# 2. Duplikate in der 'Kunden-ID'-Spalte entfernendf = df.drop_duplicates(subset=['Kunden-ID'])# 3. Einheitliches Format für 'Kaufdatum' sicherstellendf['Kaufdatum'] = pd.to_datetime(df['Kaufdatum'], errors='coerce')df['Kaufdatum'] = df['Kaufdatum'].dt.strftime('%Y-%m-%d')# Bereinigte Daten anzeigenprint('Bereinigte Daten:')print(df)Die obige Implementierung führt die folgenden Datenbereinigungsschritte aus:
Ein Unternehmen möchte die Kundenzufriedenheit seiner neuen Produktlinie analysieren. Dafür wurden bei einer Umfrage die Bewertungen der Kunden auf einer Skala von 1 bis 10 gesammelt. Eine erste Datenauswertung zeigt folgendes Ergebnis: 2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10 Die folgenden Aufgaben sollen Dir dabei helfen, die deskriptive Statistik und Visualisierung dieses Datensatzes zu verstehen und anzuwenden.
Bestimme die Häufigkeitsverteilung der Kundenbewertungen und stelle sie in einer Tabelle dar. Erkläre, welche Information diese Tabelle liefert.
Lösung:
Häufigkeitsverteilung der Kundenbewertungen Um die Häufigkeitsverteilung der Kundenbewertungen darzustellen, müssen wir zählen, wie oft jede Bewertung in unserer Umfrage vorkommt. Dies können wir leicht in einer Tabelle organisieren.
Bewertung | Häufigkeit |
---|---|
2 | 1 |
3 | 2 |
4 | 1 |
5 | 1 |
6 | 3 |
7 | 1 |
8 | 2 |
9 | 1 |
10 | 1 |
Berechne den Mittelwert, Median und Modus der Kundenbewertungen. Zeige alle Rechenschritte und erkläre, was diese Maßzahlen über die Daten aussagen.
Lösung:
Berechnung von Mittelwert, Median und Modus der Kundenbewertungen Um diese Maßzahlen zu berechnen, müssen wir die gegebenen Kundenbewertungen analysieren:
2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 101. Mittelwert (Durchschnitt) Der Mittelwert wird berechnet, indem man die Summe aller Bewertungen durch die Anzahl der Bewertungen teilt. Berechnungsschritte:
2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10Median = 6 3. Modus (Modalwert) Der Modus ist der Wert, der am häufigsten in den Daten vorkommt. In unserer Liste ist 6 drei Mal vorhanden, alle anderen Werte seltener. Modus = 6 Interpretation:
Erstelle ein Histogramm der Kundenbewertungen und interpretiere, was Du daraus entnehmen kannst. Benutze passende Klassenintervalle und erläutere Deine Wahl.
Lösung:
Erstellung eines Histogramms der Kundenbewertungen Um ein Histogramm der Kundenbewertungen zu erstellen, müssen wir zunächst passende Klassenintervalle bestimmen. Klassenintervalle helfen dabei, die Bewertungen in Gruppen zu unterteilen und somit die Verteilung der Daten visuell darzustellen. Angesichts der Bewertungsdaten und ihrer Verteilung werden wir Klassenintervalle in Schritten von 2 wählen. Dies ermöglicht eine angemessene Gruppierung und macht das Histogramm übersichtlicher. Die Bewertungen umfassen die Werte von 2 bis 10:
2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10Klassenintervalle:
Klassenintervall | Häufigkeit |
---|---|
1-2 | * |
3-4 | *** |
5-6 | **** |
7-8 | *** |
9-10 | ** |
Häufigkeit 4 | | | * 3 | *** *** | * 2 | *** *** ** * 1 | * ** * ----------------------------------------------- 1-2 3-4 5-6 7-8 9-10Interpretation:
Visualisiere die Daten zusätzlich in einem Boxplot. Bestimme und erkläre die Quartile, Interquartilsabstand und die Identifikation eventueller Ausreißer.
Lösung:
Visualisierung der Daten in einem Boxplot Ein Boxplot ist ein hilfreiches Werkzeug zur Visualisierung der Verteilung der Daten und zur Identifikation von Ausreißern. Um einen Boxplot zu erstellen, müssen wir die Quartile und den Interquartilsabstand berechnen. Gegebene Kundenbewertungen:
2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 101. Bestimmung der Quartile:
10 +---------------+ |[Whisker] 9 | [Whisker] * | * | 8 +-----------+ |[Q3] ---+ 7 | | * | 6 +-----|---|---[Q2 - Median]---|--|---+ | |---* 5 | |---* 4 +-----------+ |[Whisker] 3.5 +-------------------+ [Q1] [Whisker] 2 +-----[Whisker] * |---* | 1 | | 0 +----+ | | [Whisker] +Interpretation:
Ein mittelständisches Unternehmen im Einzelhandel möchte analysieren, wie Werbeausgaben (in 1000 Euro) die Quartalsumsätze (in Millionen Euro) beeinflussen. Dazu hat das Unternehmen Daten der letzten 8 Quartale gesammelt:
Verwende die gegebenen Daten, um eine lineare Regressionsanalyse durchzuführen und die Beziehung zwischen den Variablen zu bestimmen. Zudem soll die Korrelation zwischen Werbeausgaben und Quartalsumsätzen berechnet werden.
1. Lineare Regression:
Führe eine einfache lineare Regression zwischen den Quartalswerbeausgaben (X) und Quartalsumsätzen (Y) durch, um die Regressionsgerade zu ermitteln. Berechne die Parameter \(\beta_0\) und \(\beta_1\) des Modells \( Y = \beta_0 + \beta_1X + \epsilon\).
Leite daraus die geschätzten Werte \(\beta_0\) und \(\beta_1\) ab und interpretiere die Ergebnisse.
Lösung:
Führe eine einfache lineare Regression zwischen den Quartalswerbeausgaben (X) und Quartalsumsätzen (Y) durch, um die Regressionsgerade zu ermitteln. Berechne die Parameter \( \beta_0 \) und \( \beta_1 \) des Modells \( Y = \beta_0 + \beta_1X + \epsilon \).
Leite daraus die geschätzten Werte \( \beta_0 \) und \( \beta_1 \) ab und interpretiere die Ergebnisse.
\[ \bar{X} = \frac{20 + 25 + 30 + 35 + 40 + 45 + 50 + 55}{8} = \frac{300}{8} = 37.5 \]
\[ \bar{Y} = \frac{2.4 + 2.6 + 2.7 + 3.0 + 3.5 + 3.9 + 4.2 + 4.4}{8} = \frac{26.7}{8} = 3.3375 \]
\[ (20 - 37.5)(2.4 - 3.3375) = (20 - 37.5)(2.4 - 3.3375) = -17.5 \times -0.9375 = 16.40625 \] \[ (25 - 37.5)(2.6 - 3.3375) = (25 - 37.5)(2.6 - 3.3375) = -12.5 \times -0.7375 = 9.21875 \] \[ (30 - 37.5)(2.7 - 3.3375) = (30 - 37.5)(2.7 - 3.3375) = -7.5 \times -0.6375 = 4.78125 \] \[ (35 - 37.5)(3.0 - 3.3375) = (35 - 37.5)(3.0 - 3.3375) = -2.5 \times -0.3375 = 0.84375 \] \[ (40 - 37.5)(3.5 - 3.3375) = (40 - 37.5)(3.5 - 3.3375) = 2.5 \times 0.1625 = 0.40625 \] \[ (45 - 37.5)(3.9 - 3.3375) = (45 - 37.5)(3.9 - 3.3375) = 7.5 \times 0.5625 = 4.21875 \] \[ (50 - 37.5)(4.2 - 3.3375) = (50 - 37.5)(4.2 - 3.3375) = 12.5 \times 0.8625 = 10.78125 \] \[ (55 - 37.5)(4.4 - 3.3375) = (55 - 37.5)(4.4 - 3.3375) = 17.5 \times 1.0625 = 18.59375 \] \] Die Summe der Produkte der Abweichungen ist: \[ \sum_{i=1}^{8} (X_i - \bar{X})(Y_i - \bar{Y}) = 16.40625 + 9.21875 + 4.78125 + 0.84375 + 0.40625 + 4.21875 + 10.78125 + 18.59375 = 65.25 \]
\[ (20 - 37.5)^2 = (-17.5)^2 = 306.25 \] \[ (25 - 37.5)^2 = (-12.5)^2 = 156.25 \] \[ (30 - 37.5)^2 = (-7.5)^2 = 56.25 \] \[ (35 - 37.5)^2 = (-2.5)^2 = 6.25 \] \[ (40 - 37.5)^2 = (2.5)^2 = 6.25 \] \[ (45 - 37.5)^2 = (7.5)^2 = 56.25 \] \[ (50 - 37.5)^2 = (12.5)^2 = 156.25 \] \[ (55 - 37.5)^2 = (17.5)^2 = 306.25 \] Die Summe der Quadrate der Abweichungen ist: \[ \sum_{i=1}^{8} (X_i - \bar{X})^2 = 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 = 1050 \]
\[ \beta_1 = \frac{\sum_{i=1}^{8} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{8} (X_i - \bar{X})^2} = \frac{65.25}{1050} = 0.06214 \]
\[ \beta_0 = \bar{Y} - \beta_1 \cdot \bar{X} = 3.3375 - 0.06214 \times 37.5 = 3.3375 - 2.33025 = 1.00725 \]
Die geschätzte Regressionsgerade lautet:
\[ \hat{Y} = 1.00725 + 0.06214X \]
Interpretation: Der Koeffizient \( \beta_1 \) (0.06214) zeigt, dass für jede zusätzliche 1000 Euro, die in Werbung investiert werden, der Quartalsumsatz um etwa 0.06214 Millionen Euro steigt. Der Interzept \( \beta_0 \) (1.00725) gibt den geschätzten Quartalsumsatz an, wenn keine Werbeausgaben gemacht würden.
2. Korrelation und Bestimmtheitsmaß:
Berechne den Pearson-Korrelationskoeffizienten (r) für die Beziehung zwischen den Quartalswerbeausgaben (X) und den Quartalsumsätzen (Y) und interpretiere das Ergebnis. Nutze dafür die Formel:
\[ r = \frac{\sum (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum (X_i - \overline{X})^2 \sum (Y_i - \overline{Y})^2}} \]
Berechne anschließend das Bestimmtheitsmaß (\(R^2\)) und gib an, welcher Anteil der Varianz von Y durch die Varianz von X erklärt wird:
\[ R^2 = 1 - \frac{\sum (Y_i - \hat{Y_i})^2}{\sum (Y_i - \overline{Y})^2}\]
Lösung:
Berechne den Pearson-Korrelationskoeffizienten (r) für die Beziehung zwischen den Quartalswerbeausgaben (X) und den Quartalsumsätzen (Y) und interpretiere das Ergebnis. Nutze dafür die Formel:
\[ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} \]
\[ \sum (X_i - \bar{X})(Y_i - \bar{Y}) = 65.25 \]\[ \sum (X_i - \bar{X})^2 = 1050 \]
\[ (2.4 - 3.3375)^2 = (-0.9375)^2 = 0.87890625 \]\[ (2.6 - 3.3375)^2 = (-0.7375)^2 = 0.54390625 \]\[ (2.7 - 3.3375)^2 = (-0.6375)^2 = 0.40640625 \]\[ (3.0 - 3.3375)^2 = (-0.3375)^2 = 0.11390625 \]\[ (3.5 - 3.3375)^2 = (0.1625)^2 = 0.02640625 \]\[ (3.9 - 3.3375)^2 = (0.5625)^2 = 0.31640625 \]\[ (4.2 - 3.3375)^2 = (0.8625)^2 = 0.74390625 \]\[ (4.4 - 3.3375)^2 = (1.0625)^2 = 1.12890625 \] Die Summe der Quadrate der Abweichungen für Y ist:\[ \sum (Y_i - \bar{Y})^2 = 0.87890625 + 0.54390625 + 0.40640625 + 0.11390625 + 0.02640625 + 0.31640625 + 0.74390625 + 1.12890625 = 4.15875 \]
\[ r = \frac{65.25}{\sqrt{1050 \cdot 4.15875}} = \frac{65.25}{\sqrt{4360.6875}} = \frac{65.25}{66.0316} = 0.9878 \]
Der Pearson-Korrelationskoeffizient (r) von 0.9878 deutet auf eine sehr starke positive Beziehung zwischen den Werbeausgaben und den Quartalsumsätzen hin. Das bedeutet, dass höhere Werbeausgaben tendenziell mit höheren Quartalsumsätzen verbunden sind.
\[ R^2 = r^2 = (0.9878)^2 = 0.9758 \]
Interpretation des Bestimmtheitsmaßes: Ein \( R^2 \) von 0.9758 bedeutet, dass etwa 97.58% der Varianz in den Quartalsumsätzen durch die Varianz der Werbeausgaben erklärt wird. Dies bestätigt die starke positive Beziehung, die durch den Korrelationskoeffizienten angezeigt wird.
Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.
Kostenloses Konto erstellenDu hast bereits ein Konto? Anmelden