Empirische Ökonomie - Exam.pdf

Empirische Ökonomie - Exam
Aufgabe 1) Datenbereinigung und -management Ein Unternehmen kann mithilfe der Datenbereinigung und des Datenmanagements die Qualität von Daten verbessern und so eine verlässliche Grundlage für empirische Analysen schaffen. Angenommen, Du hast ein Datensatz mit Kundeninformationen, der folgende Probleme aufweist: Fehlende Werte in der Spalte 'Alter', Duplikate in der Spalte 'Kunden-ID' und inkonsis...

© StudySmarter 2024, all rights reserved.

Aufgabe 1)

Datenbereinigung und -managementEin Unternehmen kann mithilfe der Datenbereinigung und des Datenmanagements die Qualität von Daten verbessern und so eine verlässliche Grundlage für empirische Analysen schaffen. Angenommen, Du hast ein Datensatz mit Kundeninformationen, der folgende Probleme aufweist: Fehlende Werte in der Spalte 'Alter', Duplikate in der Spalte 'Kunden-ID' und inkonsistente Formate in der Spalte 'Kaufdatum'.Du verwendest die Programmiersprache Python, um diesen Datensatz zu bereinigen und zu verwalten.

a)

(a) Beschreibe die Schritte, die Du unternehmen würdest, um den genannten Datensatz zu bereinigen. Gehe dabei insbesondere auf folgende Punkte ein:

  • Wie würdest Du fehlende Werte in der Spalte 'Alter' behandeln?
  • Wie würdest Du Duplikate in der Spalte 'Kunden-ID' entfernen?
  • Wie würdest Du sicherstellen, dass die Daten in der Spalte 'Kaufdatum' einheitlich formatiert sind?

Lösung:

(a) Um den Datensatz zu bereinigen, gehe ich wie folgt vor:

  • Behandlung fehlender Werte in der Spalte 'Alter':Fehlende Werte können auf verschiedene Arten behandelt werden, abhängig von der spezifischen Situation:
    • Entfernen: Falls der Anteil fehlender Werte gering ist, kann ich die entsprechenden Zeilen einfach entfernen.
    • Ersetzen: Eine andere Möglichkeit ist, die fehlenden Werte durch den Durchschnitt oder Median der vorhandenen Alterswerte zu ersetzen. Alternativ könnte ich auch eine Vorhersagemethode wie einen Regressionsansatz verwenden, um die fehlenden Werte zu schätzen.
  • Entfernen von Duplikaten in der Spalte 'Kunden-ID':Um Duplikate zu erkennen und zu entfernen, kann ich folgende Schritte unternehmen:
    • Identifizieren von Duplikaten mithilfe der 'pandas'-Bibliothek in Python:
       'import pandas as pddf = pd.read_csv('kunden_daten.csv')duplikate = df[df.duplicated(subset=['Kunden-ID'])]'
    • Entfernen der Duplikate:
      'df = df.drop_duplicates(subset=['Kunden-ID'])'
  • Sicherstellen eines einheitlichen Formats in der Spalte 'Kaufdatum':Für die einheitliche Formatierung der Datumsangaben kann ich die 'datetime'-Bibliothek in Python verwenden:
    • Konvertieren der Spalte in ein Datumsformat:
      'df['Kaufdatum'] = pd.to_datetime(df['Kaufdatum'], errors='coerce')'
    • Falls nötig, Konvertieren in ein spezifisches Format, z.B. 'YYYY-MM-DD':
      'df['Kaufdatum'] = df['Kaufdatum'].dt.strftime('%Y-%m-%d')'
Durch das Befolgen dieser Schritte werden die Daten bereinigt und organisatorische Konsistenz hergestellt, was die Grundlage für genaue und zuverlässige Datenanalysen bildet.

b)

(b) Implementiere die Datenbereinigungsschritte in Python, um den beschriebenen Datensatz zu bereinigen. Der Beispiel-Datensatz sieht wie folgt aus:

import pandas as pdimport numpy as npdata = {'Kunden-ID': [1, 2, 2, 4, 5], 'Alter': [25, np.nan, 37, 29, 40], 'Kaufdatum': ['2020-01-01', '01.02.2020', '2020-03-01', '2020/03/01', '04-01-2020']}df = pd.DataFrame(data)print(df)

Lösung:

(b) Hier ist eine vollständige Implementierung der Datenbereinigungsschritte in Python, um den beschriebenen Datensatz zu bereinigen:

import pandas as pdimport numpy as np# Beispiel-Daten erstellendata = {'Kunden-ID': [1, 2, 2, 4, 5],        'Alter': [25, np.nan, 37, 29, 40],        'Kaufdatum': ['2020-01-01', '01.02.2020', '2020-03-01', '2020/03/01', '04-01-2020']}df = pd.DataFrame(data)# Originaldaten anzeigenprint('Originaldaten:')print(df)# 1. Fehlende Werte im 'Alter'-Feld behandeln (hier: Ersetzen durch den Median-Wert)median_alter = df['Alter'].median()df['Alter'].fillna(median_alter, inplace=True)# 2. Duplikate in der 'Kunden-ID'-Spalte entfernendf = df.drop_duplicates(subset=['Kunden-ID'])# 3. Einheitliches Format für 'Kaufdatum' sicherstellendf['Kaufdatum'] = pd.to_datetime(df['Kaufdatum'], errors='coerce')df['Kaufdatum'] = df['Kaufdatum'].dt.strftime('%Y-%m-%d')# Bereinigte Daten anzeigenprint('Bereinigte Daten:')print(df)
Die obige Implementierung führt die folgenden Datenbereinigungsschritte aus:
  • Behandlung fehlender Werte: Fehlende Werte in der Spalte 'Alter' werden durch den Median der vorhandenen Alterswerte ersetzt.
  • Entfernung von Duplikaten: Duplikate in der Spalte 'Kunden-ID' werden entfernt.
  • Einheitliches Datumsformat: Das Datum in der Spalte 'Kaufdatum' wird in das Format 'YYYY-MM-DD' umgewandelt.
Mit diesen Schritten wird der Datensatz bereinigt und ist bereit für die weitere Analyse.

Aufgabe 2)

Ein Unternehmen möchte die Kundenzufriedenheit seiner neuen Produktlinie analysieren. Dafür wurden bei einer Umfrage die Bewertungen der Kunden auf einer Skala von 1 bis 10 gesammelt. Eine erste Datenauswertung zeigt folgendes Ergebnis: 2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10 Die folgenden Aufgaben sollen Dir dabei helfen, die deskriptive Statistik und Visualisierung dieses Datensatzes zu verstehen und anzuwenden.

a)

Bestimme die Häufigkeitsverteilung der Kundenbewertungen und stelle sie in einer Tabelle dar. Erkläre, welche Information diese Tabelle liefert.

Lösung:

Häufigkeitsverteilung der Kundenbewertungen Um die Häufigkeitsverteilung der Kundenbewertungen darzustellen, müssen wir zählen, wie oft jede Bewertung in unserer Umfrage vorkommt. Dies können wir leicht in einer Tabelle organisieren.

Bewertung Häufigkeit
2 1
3 2
4 1
5 1
6 3
7 1
8 2
9 1
10 1
  • Bewertung: Dies sind die Bewertungen, die von den Kunden auf einer Skala von 1 bis 10 vergeben wurden.
  • Häufigkeit: Dies zeigt, wie oft jede Bewertung in der Umfrage vorkam.
Diese Tabelle liefert wichtige Informationen über die Verteilung der Kundenbewertungen. Zum Beispiel siehst Du auf einen Blick, dass die Bewertung 6 am häufigsten vergeben wurde. Dadurch kann das Unternehmen erkennen, dass die meisten Kunden ihre Zufriedenheit mit der Note 6 bewerten. Solche Häufigkeitsverteilungen sind wichtig, um die allgemeine Meinung und Tendenz der Kunden zu verstehen und eventuelle Verbesserungsbereiche zu identifizieren.

b)

Berechne den Mittelwert, Median und Modus der Kundenbewertungen. Zeige alle Rechenschritte und erkläre, was diese Maßzahlen über die Daten aussagen.

Lösung:

Berechnung von Mittelwert, Median und Modus der Kundenbewertungen Um diese Maßzahlen zu berechnen, müssen wir die gegebenen Kundenbewertungen analysieren:

2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10
1. Mittelwert (Durchschnitt) Der Mittelwert wird berechnet, indem man die Summe aller Bewertungen durch die Anzahl der Bewertungen teilt. Berechnungsschritte:
  • Summe der Bewertungen: 2 + 3 + 3 + 4 + 5 + 6 + 6 + 6 + 7 + 8 + 8 + 9 + 10 = 77
  • Anzahl der Bewertungen: 13
Mittelwert = \(\frac{77}{13}\) ≈ 5.92 2. Median Der Median ist der Wert, der in der Mitte der sortierten Daten liegt. Da hier 13 Bewertungen vorliegen (eine ungerade Anzahl), ist der Median der 7. Wert in der sortierten Liste. Die sortierte Liste:
2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10
Median = 6 3. Modus (Modalwert) Der Modus ist der Wert, der am häufigsten in den Daten vorkommt. In unserer Liste ist 6 drei Mal vorhanden, alle anderen Werte seltener. Modus = 6 Interpretation:
  • Der Mittelwert von 5.92 zeigt, dass die durchschnittliche Bewertung der Kunden knapp unter 6 liegt.
  • Der Median von 6 zeigt, dass 50% der Bewertungen unterhalb und 50% oberhalb von 6 liegen. Dies bestätigt, dass 6 ein zentraler Wert in der Datenverteilung ist.
  • Der Modus von 6 zeigt, dass 6 die am häufigsten gegebene Bewertung ist, was darauf hinweist, dass viele Kunden ihre Zufriedenheit mit dem Produkt als durchschnittlich bewerten.
Diese Maßzahlen helfen dem Unternehmen, ein besseres Verständnis der allgemeinen Kundenzufriedenheit zu erhalten und zu sehen, wie die Bewertungen verteilt sind. Der Mittelwert und Median liefern Informationen über den zentralen Tendenzwert, während der Modus aufzeigt, welcher Wert am häufigsten vorkommt.

c)

Erstelle ein Histogramm der Kundenbewertungen und interpretiere, was Du daraus entnehmen kannst. Benutze passende Klassenintervalle und erläutere Deine Wahl.

Lösung:

Erstellung eines Histogramms der Kundenbewertungen Um ein Histogramm der Kundenbewertungen zu erstellen, müssen wir zunächst passende Klassenintervalle bestimmen. Klassenintervalle helfen dabei, die Bewertungen in Gruppen zu unterteilen und somit die Verteilung der Daten visuell darzustellen. Angesichts der Bewertungsdaten und ihrer Verteilung werden wir Klassenintervalle in Schritten von 2 wählen. Dies ermöglicht eine angemessene Gruppierung und macht das Histogramm übersichtlicher. Die Bewertungen umfassen die Werte von 2 bis 10:

2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10
Klassenintervalle:
  • 1-2
  • 3-4
  • 5-6
  • 7-8
  • 9-10
Häufigkeit pro Klassenintervall:
  • 1-2: 1
  • 3-4: 3
  • 5-6: 4
  • 7-8: 3
  • 9-10: 2
Histogramm:
Klassenintervall Häufigkeit
1-2 *
3-4 ***
5-6 ****
7-8 ***
9-10 **
In einem grafischen Histogramm würde dies wie folgt aussehen:
  Häufigkeit  4 |                        |                        |  *  3 |            ***         ***         |  *  2 |            ***         ***                       **  *  1 |  *                            **            *  -----------------------------------------------  1-2   3-4   5-6   7-8   9-10
Interpretation:
  • Die meisten Bewertungen fallen in das Klassenintervall 5-6. Dies zeigt an, dass viele Kunden das Produkt als durchschnittlich bewerten.
  • Es gibt ebenfalls hohe Bewertungen im Bereich von 7-8 und 9-10, was andeutet, dass einige Kunden sehr zufrieden mit dem Produkt sind.
  • Es gibt wenige Bewertungen im unteren Bereich (1-2), was ein positives Zeichen ist, da nur wenige Kunden das Produkt sehr schlecht bewertet haben.
  • Eine gleichmäßige Verteilung der Bewertungen über die Klassenintervalle von 3-4 und 9-10 zeigt eine gewisse Vielfalt in der Kundenzufriedenheit.
Das Histogramm hilft dem Unternehmen, auf einen Blick zu erkennen, wie die Kundenbewertungen verteilt sind, und gibt wertvolle Einblicke in die allgemeine Zufriedenheit mit der neuen Produktlinie.

d)

Visualisiere die Daten zusätzlich in einem Boxplot. Bestimme und erkläre die Quartile, Interquartilsabstand und die Identifikation eventueller Ausreißer.

Lösung:

Visualisierung der Daten in einem Boxplot Ein Boxplot ist ein hilfreiches Werkzeug zur Visualisierung der Verteilung der Daten und zur Identifikation von Ausreißern. Um einen Boxplot zu erstellen, müssen wir die Quartile und den Interquartilsabstand berechnen. Gegebene Kundenbewertungen:

2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10
1. Bestimmung der Quartile:
  • Q1 (1. Quartil): Der Median der ersten Hälfte der Daten. Da wir eine ungerade Anzahl an Daten haben, zählen wir die unteren 6 Werte. \[Q1 = Median(2, 3, 3, 4, 5, 6) = 3.5\]
  • Q2 (2. Quartil) - Median:: Der Median der gesamten Daten. \[Q2 = Median(2, 3, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 10) = 6\]
  • Q3 (3. Quartil): Der Median der zweiten Hälfte der Daten. \[Q3 = Median(6, 7, 8, 8, 9, 10) = 8\]
2. Berechnung des Interquartilsabstandes (IQR):\[IQR = Q3 - Q1 = 8 - 3.5 = 4.5\]3. Identifikation von Ausreißern: Ausreißer sind Datenpunkte, die weit außerhalb des Bereichs liegen. Ein Datenpunkt ist ein Ausreißer, wenn er mehr als 1.5 mal den IQR unterhalb von Q1 oder oberhalb von Q3 liegt: \[Unteres Limit = Q1 - 1.5 \times IQR = 3.5 - 1.5 \times 4.5 = -3.25\] \[Oberes Limit = Q3 + 1.5 \times IQR = 8 + 1.5 \times 4.5 = 14.75\] Da alle Bewertungen innerhalb des Bereichs von -3.25 bis 14.75 liegen, gibt es keine Ausreißer in den Daten. Boxplot: Ein Boxplot zeigt sich grafisch wie folgt:
  • Die Box reicht von Q1 bis Q3 (also von 3.5 bis 8).
  • Der Median ist eine Linie in der Mitte der Box bei 6.
  • Die „Whiskers“ (Antennen) erstrecken sich zu den kleinsten und größten Datenpunkten, die keine Ausreißer sind (also 2 und 10).
 10 +---------------+ |[Whisker] 9 |   [Whisker] * |   *   | 8 +-----------+ |[Q3] ---+ 7 |   | * | 6 +-----|---|---[Q2 - Median]---|--|---+ |   |---* 5 |   |---* 4 +-----------+ |[Whisker] 3.5 +-------------------+ [Q1] [Whisker] 2 +-----[Whisker] * |---* | 1 |   | 0 +----+ | | [Whisker]   +
Interpretation:
  • Die Box repräsentiert die mittleren 50% der Daten (Interquartilsabstand von 3.5 bis 8).
  • Der Medianwert befindet sich in der Mitte der Box bei 6, was bedeutet, dass die Hälfte der Bewertungen unterhalb und die andere Hälfte oberhalb von 6 liegt.
  • Die „Whiskers“ erstrecken sich von 2 bis 10 und zeigen den gesamten Wertebereich ohne Ausreißer.
  • Keine Ausreißer bedeuten, dass alle Datenpunkte innerhalb einer akzeptablen Spanne liegen.
Ein Boxplot bietet eine einfache Visualisierung der Datenverteilung und der zentralen Tendenzen, was dem Unternehmen wertvolle Einblicke in die Kundenbewertungen ermöglicht.

Aufgabe 3)

Ein mittelständisches Unternehmen im Einzelhandel möchte analysieren, wie Werbeausgaben (in 1000 Euro) die Quartalsumsätze (in Millionen Euro) beeinflussen. Dazu hat das Unternehmen Daten der letzten 8 Quartale gesammelt:

  • Quartalswerbeausgaben (X): 20, 25, 30, 35, 40, 45, 50, 55
  • Quartalsumsätze (Y): 2.4, 2.6, 2.7, 3.0, 3.5, 3.9, 4.2, 4.4

Verwende die gegebenen Daten, um eine lineare Regressionsanalyse durchzuführen und die Beziehung zwischen den Variablen zu bestimmen. Zudem soll die Korrelation zwischen Werbeausgaben und Quartalsumsätzen berechnet werden.

a)

1. Lineare Regression:

Führe eine einfache lineare Regression zwischen den Quartalswerbeausgaben (X) und Quartalsumsätzen (Y) durch, um die Regressionsgerade zu ermitteln. Berechne die Parameter \(\beta_0\) und \(\beta_1\) des Modells \( Y = \beta_0 + \beta_1X + \epsilon\).

  • Berechne die Summe der Produkte der Abweichungen von den Mittelwerten für X und Y.
  • Berechne die Summe der Quadrate der Abweichungen vom Mittelwert für X.
  • Berechne \(\beta_1\) als Quotient der beiden Summen.
  • Bestimme \(\beta_0\) unter Nutzung der Mittelwerte der Variablen X und Y.

Leite daraus die geschätzten Werte \(\beta_0\) und \(\beta_1\) ab und interpretiere die Ergebnisse.

Lösung:

Lineare Regression:

Führe eine einfache lineare Regression zwischen den Quartalswerbeausgaben (X) und Quartalsumsätzen (Y) durch, um die Regressionsgerade zu ermitteln. Berechne die Parameter \( \beta_0 \) und \( \beta_1 \) des Modells \( Y = \beta_0 + \beta_1X + \epsilon \).

  • Berechne die Summe der Produkte der Abweichungen von den Mittelwerten für X und Y.
  • Berechne die Summe der Quadrate der Abweichungen vom Mittelwert für X.
  • Berechne \( \beta_1 \) als Quotient der beiden Summen.
  • Bestimme \( \beta_0 \) unter Nutzung der Mittelwerte der Variablen X und Y.

Leite daraus die geschätzten Werte \( \beta_0 \) und \( \beta_1 \) ab und interpretiere die Ergebnisse.

Schritt-für-Schritt-Lösung:

1. Gegebene Daten:

  • Quartalswerbeausgaben (X): 20, 25, 30, 35, 40, 45, 50, 55
  • Quartalsumsätze (Y): 2.4, 2.6, 2.7, 3.0, 3.5, 3.9, 4.2, 4.4

2. Berechnung der Mittelwerte:

  • Mittelwert von X:
     \[ \bar{X} = \frac{20 + 25 + 30 + 35 + 40 + 45 + 50 + 55}{8} = \frac{300}{8} = 37.5 \]
  • Mittelwert von Y:
     \[ \bar{Y} = \frac{2.4 + 2.6 + 2.7 + 3.0 + 3.5 + 3.9 + 4.2 + 4.4}{8} = \frac{26.7}{8} = 3.3375 \]

3. Summe der Produkte der Abweichungen:

  • Berechne \( (X_i - \bar{X})(Y_i - \bar{Y}) \) für jedes Paar (X_i, Y_i):
 \[ (20 - 37.5)(2.4 - 3.3375) = (20 - 37.5)(2.4 - 3.3375) = -17.5 \times -0.9375 = 16.40625 \] \[ (25 - 37.5)(2.6 - 3.3375) = (25 - 37.5)(2.6 - 3.3375) = -12.5 \times -0.7375 = 9.21875 \] \[ (30 - 37.5)(2.7 - 3.3375) = (30 - 37.5)(2.7 - 3.3375) = -7.5 \times -0.6375 = 4.78125 \] \[ (35 - 37.5)(3.0 - 3.3375) = (35 - 37.5)(3.0 - 3.3375) = -2.5 \times -0.3375 = 0.84375 \] \[ (40 - 37.5)(3.5 - 3.3375) = (40 - 37.5)(3.5 - 3.3375) = 2.5 \times 0.1625 = 0.40625 \] \[ (45 - 37.5)(3.9 - 3.3375) = (45 - 37.5)(3.9 - 3.3375) = 7.5 \times 0.5625 = 4.21875 \] \[ (50 - 37.5)(4.2 - 3.3375) = (50 - 37.5)(4.2 - 3.3375) = 12.5 \times 0.8625 = 10.78125 \] \[ (55 - 37.5)(4.4 - 3.3375) = (55 - 37.5)(4.4 - 3.3375) = 17.5 \times 1.0625 = 18.59375 \] \] Die Summe der Produkte der Abweichungen ist: \[ \sum_{i=1}^{8} (X_i - \bar{X})(Y_i - \bar{Y}) = 16.40625 + 9.21875 + 4.78125 + 0.84375 + 0.40625 + 4.21875 + 10.78125 + 18.59375 = 65.25 \]

4. Summe der Quadrate der Abweichungen:

  • Berechne \( (X_i - \bar{X})^2 \) für jede X_i:
 \[ (20 - 37.5)^2 = (-17.5)^2 = 306.25 \] \[ (25 - 37.5)^2 = (-12.5)^2 = 156.25 \] \[ (30 - 37.5)^2 = (-7.5)^2 = 56.25 \] \[ (35 - 37.5)^2 = (-2.5)^2 = 6.25 \] \[ (40 - 37.5)^2 = (2.5)^2 = 6.25 \] \[ (45 - 37.5)^2 = (7.5)^2 = 56.25 \] \[ (50 - 37.5)^2 = (12.5)^2 = 156.25 \] \[ (55 - 37.5)^2 = (17.5)^2 = 306.25 \]  Die Summe der Quadrate der Abweichungen ist: \[ \sum_{i=1}^{8} (X_i - \bar{X})^2 = 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 = 1050 \]

5. Berechnung von \(\beta_1 \) und \( \beta_0 \):

  • Jetzt kann \( \beta_1 \) berechnet werden als:
 \[ \beta_1 = \frac{\sum_{i=1}^{8} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{8} (X_i - \bar{X})^2} = \frac{65.25}{1050} = 0.06214 \]
  • Um \( \beta_0 \) zu berechnen, verwenden wir die Mittelwerte von X und Y:
 \[ \beta_0 = \bar{Y} - \beta_1 \cdot \bar{X} = 3.3375 - 0.06214 \times 37.5 = 3.3375 - 2.33025 = 1.00725 \]

6. Ergebnis:

Die geschätzte Regressionsgerade lautet:

 \[ \hat{Y} = 1.00725 + 0.06214X \]

Interpretation: Der Koeffizient \( \beta_1 \) (0.06214) zeigt, dass für jede zusätzliche 1000 Euro, die in Werbung investiert werden, der Quartalsumsatz um etwa 0.06214 Millionen Euro steigt. Der Interzept \( \beta_0 \) (1.00725) gibt den geschätzten Quartalsumsatz an, wenn keine Werbeausgaben gemacht würden.

b)

2. Korrelation und Bestimmtheitsmaß:

Berechne den Pearson-Korrelationskoeffizienten (r) für die Beziehung zwischen den Quartalswerbeausgaben (X) und den Quartalsumsätzen (Y) und interpretiere das Ergebnis. Nutze dafür die Formel:

\[ r = \frac{\sum (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum (X_i - \overline{X})^2 \sum (Y_i - \overline{Y})^2}} \]

Berechne anschließend das Bestimmtheitsmaß (\(R^2\)) und gib an, welcher Anteil der Varianz von Y durch die Varianz von X erklärt wird:

\[ R^2 = 1 - \frac{\sum (Y_i - \hat{Y_i})^2}{\sum (Y_i - \overline{Y})^2}\]

Lösung:

Korrelation und Bestimmtheitsmaß

Berechne den Pearson-Korrelationskoeffizienten (r) für die Beziehung zwischen den Quartalswerbeausgaben (X) und den Quartalsumsätzen (Y) und interpretiere das Ergebnis. Nutze dafür die Formel:

\[ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} \]

  • Zunächst haben wir bereits die Summe der Produkte der Abweichungen und die Summe der Quadrate der Abweichungen für X aus dem vorherigen Teil berechnet:
\[ \sum (X_i - \bar{X})(Y_i - \bar{Y}) = 65.25 \]\[ \sum (X_i - \bar{X})^2 = 1050 \]
  • Jetzt müssen wir die \(\sum (Y_i - \bar{Y})^2 \) berechnen:
  • \[ (2.4 - 3.3375)^2 = (-0.9375)^2 = 0.87890625 \]\[ (2.6 - 3.3375)^2 = (-0.7375)^2 = 0.54390625 \]\[ (2.7 - 3.3375)^2 = (-0.6375)^2 = 0.40640625 \]\[ (3.0 - 3.3375)^2 = (-0.3375)^2 = 0.11390625 \]\[ (3.5 - 3.3375)^2 = (0.1625)^2 = 0.02640625 \]\[ (3.9 - 3.3375)^2 = (0.5625)^2 = 0.31640625 \]\[ (4.2 - 3.3375)^2 = (0.8625)^2 = 0.74390625 \]\[ (4.4 - 3.3375)^2 = (1.0625)^2 = 1.12890625 \]                            Die Summe der Quadrate der Abweichungen für Y ist:\[ \sum (Y_i - \bar{Y})^2 = 0.87890625 + 0.54390625 + 0.40640625 + 0.11390625 + 0.02640625 + 0.31640625 + 0.74390625 + 1.12890625 = 4.15875 \]
  • Mit diesen Werten können wir den Korrelationskoeffizienten (r) berechnen:
  • \[ r = \frac{65.25}{\sqrt{1050 \cdot 4.15875}} = \frac{65.25}{\sqrt{4360.6875}} = \frac{65.25}{66.0316} = 0.9878 \]

    Interpretation des Pearson-Korrelationskoeffizienten:

    Der Pearson-Korrelationskoeffizient (r) von 0.9878 deutet auf eine sehr starke positive Beziehung zwischen den Werbeausgaben und den Quartalsumsätzen hin. Das bedeutet, dass höhere Werbeausgaben tendenziell mit höheren Quartalsumsätzen verbunden sind.

    Bestimmtheitsmaß (R^2):

    • Das Bestimmtheitsmaß \( R^2 \) gibt den Anteil der Varianz von Y an, der durch die Varianz von X erklärt wird. Um \( R^2 \) zu berechnen, nutzen wir die folgende Formel:
    \[ R^2 = r^2 = (0.9878)^2 = 0.9758 \]

    Interpretation des Bestimmtheitsmaßes: Ein \( R^2 \) von 0.9758 bedeutet, dass etwa 97.58% der Varianz in den Quartalsumsätzen durch die Varianz der Werbeausgaben erklärt wird. Dies bestätigt die starke positive Beziehung, die durch den Korrelationskoeffizienten angezeigt wird.

    Sign Up

    Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

    Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

    Kostenloses Konto erstellen

    Du hast bereits ein Konto? Anmelden