Statistics - Exam.pdf

Statistics - Exam
Statistics - Exam Aufgabe 1) In einem internationalen Unternehmen sollen die Verkaufsdaten für verschiedene Produkte innerhalb eines Jahres analysiert werden. Die Produktverkaufsdaten sind in einer CSV-Datei gespeichert, und Du wirst die Daten nutzen, um Häufigkeitsverteilungen zu erstellen und grafische Darstellungen zu generieren. Die Daten umfassen die Anzahl der verkauften Einheiten für die Pr...

© StudySmarter 2024, all rights reserved.

Statistics - Exam

Aufgabe 1)

In einem internationalen Unternehmen sollen die Verkaufsdaten für verschiedene Produkte innerhalb eines Jahres analysiert werden. Die Produktverkaufsdaten sind in einer CSV-Datei gespeichert, und Du wirst die Daten nutzen, um Häufigkeitsverteilungen zu erstellen und grafische Darstellungen zu generieren. Die Daten umfassen die Anzahl der verkauften Einheiten für die Produkte A, B, C, D und E.

a)

Erstelle eine Häufigkeitstabelle für die Anzahl der verkauften Einheiten der Produkte A, B, C, D und E. Berechne zudem die relative Häufigkeit jedes Produkts.

Lösung:

Häufigkeitstabelle und relative Häufigkeit berechnen

Um die Verkaufsdaten zu analysieren und eine Häufigkeitstabelle zu erstellen, folge diesen Schritten:

  • Die CSV-Datei einlesen
  • Die Anzahl der verkauften Einheiten für jedes Produkt summieren
  • Die absolute und relative Häufigkeit berechnen

Hier ist ein Beispiel in Python, um die Aufgabe zu lösen:

import pandas as pd# CSV-Datei einlesencsv_datei = 'produktverkauf.csv'daten = pd.read_csv(csv_datei)# Die absolute Anzahl der verkauften Einheiten jedes Produkts berechnenabsolute_haeufigkeit = daten.sum()gesamtanzahl = absolute_haeufigkeit.sum()# Die relative Häufigkeit berechnenrelative_haeufigkeit = absolute_haeufigkeit / gesamtanzahl# Häufigkeitstabelle erstellenhaeufigkeitstabelle = pd.DataFrame({    'Produkt': ['A', 'B', 'C', 'D', 'E'],    'Absolute Häufigkeit': absolute_haeufigkeit,    'Relative Häufigkeit': relative_haeufigkeit})# Ergebnis anzeigenprint(haeufigkeitstabelle)

Angenommen die CSV-Datei enthält Daten im folgenden Format:

Produkt,A,B,C,D,EEinheiten,120,100,130,90,110

Nach der Ausführung des Codes erhältst Du eine Tabelle mit den absoluten und relativen Häufigkeiten der verkauften Einheiten für die Produkte A, B, C, D und E.

Die relative Häufigkeit wird wie folgt berechnet:

  • Summe aller verkauften Einheiten berechnen: \sum_{i=1}^{n} x_i = \text{gesamtanzahl}
  • Relative Häufigkeit für Produkt A: \(\text{relative Häufigkeit}_A = \frac{{x_A}}{{\text{gesamtanzahl}}}\)
  • Und so weiter für die anderen Produkte.

Beispielberechnung für die relativen Häufigkeiten:

  • Gesamtanzahl der verkauften Einheiten: 120 + 100 + 130 + 90 + 110 = 550
  • Relative Häufigkeit für Produkt A: \(\frac{{120}}{{550}} \approx 0.218\)
  • Relative Häufigkeit für Produkt B: \(\frac{{100}}{{550}} \approx 0.182\)
  • Relative Häufigkeit für Produkt C: \(\frac{{130}}{{550}} \approx 0.236\)
  • Relative Häufigkeit für Produkt D: \(\frac{{90}}{{550}} \approx 0.164\)
  • Relative Häufigkeit für Produkt E: \(\frac{{110}}{{550}} \approx 0.200\)

Die Häufigkeitstabelle wird somit wie folgt aussehen:

Produkt Absolute Häufigkeit Relative Häufigkeit
A 120 0.218
B 100 0.182
C 130 0.236
D 90 0.164
E 110 0.200

b)

Berechne die kumulierte Häufigkeit der Anzahl der verkauften Einheiten und erstelle ein Diagramm, das die kumulierte Häufigkeit für jedes Produkt anzeigt.

Lösung:

Kumulierte Häufigkeit berechnen und Diagramm erstellen

Um die kumulierte Häufigkeit der verkauften Einheiten zu berechnen und ein entsprechendes Diagramm zu erstellen, folge diesen Schritten:

  • CSV-Datei einlesen
  • Kumulierte Häufigkeit berechnen
  • Diagramm erstellen

Hier ist ein Beispiel in Python, um die Aufgabe zu lösen:

import pandas as pd    import matplotlib.pyplot as plt# CSV-Datei einlesencsv_datei = 'produktverkauf.csv'daten = pd.read_csv(csv_datei)# Die absolute Anzahl der verkauften Einheiten jedes Produkts berechnenabsolute_haeufigkeit = daten.sum()# Die kumulierte Häufigkeit berechnenkumulierte_haeufigkeit = absolute_haeufigkeit.cumsum()# Ergebnis anzeigenprint(kumulierte_haeufigkeit)# Diagramm erstellenplt.figure(figsize=(10, 5))plt.plot(kumulierte_haeufigkeit.index, kumulierte_haeufigkeit.values, marker='o', linestyle='-', color='b')plt.xlabel('Produkte')plt.ylabel('Kumulierte verkaufte Einheiten')plt.title('Kumulierte Häufigkeit der verkauften Einheiten')plt.grid(True)plt.show()

Angenommen, die CSV-Datei enthält Daten im folgenden Format:

Produkt,A,B,C,D,EEinheiten,120,100,130,90,110

Nach der Ausführung des Codes erhältst Du die kumulierten Häufigkeiten und das dazugehörige Diagramm.

Die kumulierte Häufigkeit wird wie folgt berechnet:

  • Kumulierte Häufigkeit für Produkt A: \(120\)
  • Kumulierte Häufigkeit für Produkt B: \(120 + 100 = 220\)
  • Kumulierte Häufigkeit für Produkt C: \(120 + 100 + 130 = 350\)
  • Kumulierte Häufigkeit für Produkt D: \(120 + 100 + 130 + 90 = 440\)
  • Kumulierte Häufigkeit für Produkt E: \(120 + 100 + 130 + 90 + 110 = 550\)

Der kumulierte Häufigkeitsgraph zeigt, wie sich die kumulierte Anzahl der verkauften Einheiten über die Produkte hinweg entwickelt.

Hier ist eine beispielhafte Darstellung des Diagramms:

Kumulierte Häufigkeit der verkauften Einheiten:

  • Produkt A: 120
  • Produkt B: 220
  • Produkt C: 350
  • Produkt D: 440
  • Produkt E: 550

Das Diagramm zeigt auf der x-Achse die Produkte (A, B, C, D, E) und auf der y-Achse die kumulierte Anzahl der verkauften Einheiten. Die Linie im Diagramm steigt mit jedem Produkt an, was die kumulative Summe der verkauften Einheiten darstellt.

c)

Erstelle ein Histogramm, das die Verteilung der Anzahl der verkauften Einheiten für die Produkte A, B, C, D und E zeigt. Erkläre, welche Trends und Muster Du in der Verteilung erkennen kannst.

Lösung:

Histogramm der Verkaufsdaten erstellen und analysieren

Ein Histogramm zeigt die Verteilung der Anzahl der verkauften Einheiten für die Produkte A, B, C, D und E. Folgende Schritte sind notwendig:

  • CSV-Datei einlesen
  • Histogramm erstellen
  • Trends und Muster analysieren

Hier ist ein Beispiel in Python, um die Aufgabe zu lösen:

import pandas as pdimport matplotlib.pyplot as plt# CSV-Datei einlesencsv_datei = 'produktverkauf.csv'daten = pd.read_csv(csv_datei)# Histogramm erstellenplt.figure(figsize=(10, 5))plt.hist(daten, bins=10, edgecolor='black', alpha=0.7, label=daten.columns)plt.xlabel('Anzahl der verkauften Einheiten')plt.ylabel('Häufigkeit')plt.title('Histogramm der verkauften Einheiten')plt.legend(daten.columns)plt.grid(True)plt.show()

Angenommen, die CSV-Datei enthält Daten im folgenden Format:

Produkt,A,B,C,D,EEinheiten,120,100,130,90,110

Nach der Ausführung des Codes wird ein Histogramm erstellt, das die Verteilung der Anzahl der verkauften Einheiten für Produkte A, B, C, D und E zeigt.

Analyse der Trends und Muster:
  • Produkt A: Hat eine relativ hohe Anzahl an verkauften Einheiten im mittleren bis höheren Bereich.
  • Produkt B: Zeigt eine Häufung im mittleren Bereich der verkauften Einheiten.
  • Produkt C: Hat die höchste Anzahl an verkauften Einheiten, wodurch eine klare Spitze im höheren Bereich zu sehen ist.
  • Produkt D: Verzeichnet die geringste Anzahl an verkauften Einheiten und weist eine flachere Verteilung im unteren Bereich auf.
  • Produkt E: Zeigt ebenfalls eine Häufung im mittleren bis höheren Bereich ähnlich wie Produkt A, jedoch mit insgesamt etwas weniger verkauften Einheiten.

Im Histogramm wird ersichtlich, dass Produkt C am meisten verkauft wurde, während Produkt D am wenigsten verkauft wurde. Diese Verteilung könnte auf verschiedene Faktoren hinweisen, wie z.B. die Beliebtheit der Produkte, Preispolitiken oder saisonale Einflüsse.

d)

Erzeuge einen Boxplot für die verkauften Einheiten der Produkte A, B, C, D und E, um die Verteilung der Daten besser zu verstehen. Identifiziere dabei eventuelle Ausreißer und interpretiere die Verteilung der Daten.

Lösung:

Boxplot der Verkaufsdaten erstellen und analysieren

Ein Boxplot hilft dabei, die Verteilung der Daten zu visualisieren und eventuelle Ausreißer zu identifizieren. Folgende Schritte sind notwendig:

  • CSV-Datei einlesen
  • Boxplot erstellen
  • Ausreißer identifizieren und Verteilung der Daten interpretieren

Hier ist ein Beispiel in Python, um die Aufgabe zu lösen:

import pandas as pdimport matplotlib.pyplot as plt# CSV-Datei einlesencsv_datei = 'produktverkauf.csv'daten = pd.read_csv(csv_datei)# Boxplot erstellenplt.figure(figsize=(10, 6))plt.boxplot([daten['A'], daten['B'], daten['C'], daten['D'], daten['E']], vert=True, patch_artist=True, labels=['A', 'B', 'C', 'D', 'E'])plt.xlabel('Produkte')plt.ylabel('Anzahl der verkauften Einheiten')plt.title('Boxplot der verkauften Einheiten pro Produkt')plt.grid(True)plt.show()

Angenommen, die CSV-Datei enthält Daten im folgenden Format:

Produkt,A,B,C,D,EEinheiten,120,100,130,90,110

Nach der Ausführung des Codes wird ein Boxplot erstellt, der die Verteilung der Anzahl der verkauften Einheiten für die Produkte A, B, C, D und E zeigt.

Analyse der Verteilung:
  • Produkt A: Der Boxplot zeigt die Verteilung der verkauften Einheiten. Wenn der Boxplot Ausreißer hat, werden diese als einzelne Punkte außerhalb der „Box“ angezeigt.
  • Produkt B: Zeigt eine ähnliche Verteilung wie Produkt A, aber möglicherweise mit einer anderen Spannweite oder anderen Ausreißern.
  • Produkt C: Hat eventuell eine sehr hohe mittlere Anzahl verkaufter Einheiten. Ausreißer könnten ebenfalls angezeigt werden.
  • Produkt D: Verzeichnet möglicherweise eine niedrigere Anzahl verkaufter Einheiten mit möglicherweise weniger Spannweite.
  • Produkt E: Ähnlich wie bei den anderen Produkten, aber spezifische Verteilung und Ausreißer müssen überprüft werden.

Der Boxplot gibt eine Übersicht über die zentralen Tendenzen und die Verteilung der Daten. Die Box zeigt den Interquartilsabstand (IQR), welcher das zentrale 50% der Daten darstellt. Linien außerhalb der Box (sogenannte „Whiskers“) zeigen die Verteilung der restlichen Daten, und Punkte außerhalb der Whiskers sind mögliche Ausreißer.

Durch Analyse des Boxplots kannst Du folgende Muster erkennen:

  • Median: Die Linie innerhalb der Box zeigt den Median der Daten an.
  • Spannweite: Der Unterschied zwischen dem oberen und unteren Quartil gibt die Spannweite der mittleren 50% der Daten an.
  • Symmetrie: Die Position des Medians innerhalb der Box gibt Hinweise auf die Symmetrie der Datenverteilung.
  • Ausreißer: Einzelne Punkte außerhalb der Whiskers markieren Ausreißer.

Aufgabe 2)

Du arbeitest als Datenanalyst für ein internationales Unternehmen, das seine neuen Produkte in verschiedenen Märkten testet. Für eine bestimmte Marktstudie hast Du eine Stichprobe der Verkäufe eines neuen Produkts in einem Monat erhoben. Diese Daten sind notwendig, um ein Konfidenzintervall für den durchschnittlichen Monatsverkauf zu berechnen. Angenommen, Du hast eine Stichprobe von 25 monatlichen Verkaufszahlen, die einen Mittelwert von 500 Einheiten und eine Stichprobenstandardabweichung von 50 Einheiten aufweisen. Bestimme das 95%-Konfidenzintervall für den durchschnittlichen Monatsverkauf dieses Produkts.

a)

Berechne das 95%-Konfidenzintervall für den durchschnittlichen Monatsverkauf unter der Annahme, dass die Standardabweichung der Grundgesamtheit unbekannt ist. Verwende die t-Verteilung um den Bereich zu bestimmen.

  • Gibe den verwendeten t-Wert an und erkläre, wie er ermittelt wird.
  • Berechne das Konfidenzintervall und erkläre jeden Schritt in deinem Vorgehen.

Lösung:

Berechnung des 95%-Konfidenzintervalls für den durchschnittlichen Monatsverkauf

Du hast eine Stichprobe von 25 monatlichen Verkaufszahlen mit einem Mittelwert von 500 Einheiten und einer Stichprobenstandardabweichung von 50 Einheiten.

  • Bestimmung des t-Werts:Da die Standardabweichung der Grundgesamtheit unbekannt ist und wir nur eine Stichprobe betrachten, verwenden wir die t-Verteilung. Für ein 95%-Konfidenzintervall und 24 Freiheitsgrade (n-1, wobei n die Stichprobengröße ist), suchen wir den kritischen t-Wert. Diesen können wir aus einer t-Verteilungstabelle oder mit einem Statistikprogramm ermitteln.Verwendeter t-Wert: Der t-Wert für 24 Freiheitsgrade und ein 95%-Konfidenzintervall beträgt ungefähr 2,064.
  • Berechnung des Konfidenzintervalls:
    • 1. Der Mittelwert der Stichprobe (\(\bar{x}\)) beträgt 500 Einheiten.
    • 2. Die Stichprobenstandardabweichung (s) beträgt 50 Einheiten.
    • 3. Die Stichprobengröße (n) beträgt 25.

    Wir verwenden die folgende Formel, um das Konfidenzintervall zu berechnen:

    Konfidenzintervall: \( \bar{x} \pm t_{\frac{\alpha}{2}, n-1} \frac{s}{\sqrt{n}} \)

    • \( t_{\frac{\alpha}{2}, 24} \) ist der kritische t-Wert: 2,064.
    • \( s \) ist die Stichprobenstandardabweichung: 50.
    • \( n \) ist die Stichprobengröße: 25.

    Nun berechnen wir den Standardfehler (SE):

    \( SE = \frac{s}{\sqrt{n}} = \frac{50}{\sqrt{25}} = \frac{50}{5} = 10 \)

    Dann berechnen wir die Konfidenzintervallgrenzen:

    \(500 \pm 2,064 \cdot 10 \)

    Obergrenze: \(500 + 2,064 \cdot 10 = 500 + 20,64 = 520,64 \)

    Untergrenze: \(500 - 2,064 \cdot 10 = 500 - 20,64 = 479,36 \)

Ergebnis: Das 95%-Konfidenzintervall für den durchschnittlichen Monatsverkauf des Produkts liegt zwischen 479,36 und 520,64 Einheiten.

b)

Diskutiere die möglichen Auswirkungen auf das Konfidenzintervall, wenn die Stichprobengröße auf 50 erhöht wird.

  • Erläutere, welche mathematischen Anpassungen gemacht werden müssen, um das neue Konfidenzintervall zu berechnen.
  • Bestimme das neue 95%-Konfidenzintervall für den durchschnittlichen Monatsverkauf und vergleiche es mit dem vorherigen Intervall.

Lösung:

Auswirkungen auf das Konfidenzintervall bei Erhöhung der Stichprobengröße

Angenommen, die Stichprobengröße wird von 25 auf 50 erhöht. Dies beeinflusst das Konfidenzintervall, da eine größere Stichprobengröße in der Regel zu engeren Konfidenzintervallen führt. Dies liegt daran, dass der Standardfehler kleiner wird. Lass uns die mathematischen Anpassungen und Berechnungen durchführen:

  • Mathematische Anpassungen:Die Formel für das Konfidenzintervall bleibt gleich:

Konfidenzintervall: \( \bar{x} \pm t_{\frac{\alpha}{2}, n-1} \frac{s}{\sqrt{n}} \)

  • 1. Der Mittelwert der Stichprobe (\(\bar{x}\)) beträgt weiterhin 500 Einheiten.
  • 2. Die Stichprobenstandardabweichung (s) bleibt bei 50 Einheiten.
  • 3. Die Stichprobengröße (n) ist nun 50.

Die Freiheitsgrade ändern sich auf 49 (n-1) und der kritische t-Wert für ein 95%-Konfidenzintervall ändert sich entsprechend.Der t-Wert für 49 Freiheitsgrade und ein 95%-Konfidenzintervall beträgt ungefähr 2,009.

  • Berechnung des neuen Konfidenzintervalls:Wir verwenden die angepasste Formel, um das neue Konfidenzintervall zu berechnen:

Konfidenzintervall: \( 500 \pm 2,009 \frac{50}{\sqrt{50}} \)

  • Berechnung des Standardfehlers (SE):\( SE = \frac{50}{\sqrt{50}} = \frac{50}{7,07} \approx 7,071 \)
  • Berechnung der Konfidenzintervallgrenzen:

Obergrenze: \(500 + 2,009 \cdot 7,071 \approx 500 + 14,2 = 514,2 \)

Untergrenze: \(500 - 2,009 \cdot 7,071 \approx 500 - 14,2 = 485,8 \)

  • Ergebnis: Das neue 95%-Konfidenzintervall für den durchschnittlichen Monatsverkauf des Produkts liegt zwischen 485,8 und 514,2 Einheiten.
  • Vergleich mit dem vorherigen Intervall:Das vorherige 95%-Konfidenzintervall lag zwischen 479,36 und 520,64 Einheiten. Mit der Erhöhung der Stichprobengröße hat sich das Intervall verengt auf 485,8 bis 514,2 Einheiten. Dies zeigt, dass eine größere Stichprobengröße zu einer genaueren Schätzung des durchschnittlichen Monatsverkaufs führt.

Aufgabe 3)

Ein Produktionsunternehmen behauptet, dass die durchschnittliche Anzahl von defekten Teilen pro 1000 hergestellten Teilen bei 5 liegt. Die Teileproduktion unterliegt unabhängigen, identisch verteilten Zufallsvariablen mit einem festen Erwartungswert. Um diese Behauptung zu überprüfen, wird eine zufällige Stichprobe von insgesamt 10.000 Teilen entnommen, und die Anzahl der defekten Teile wird gezählt.

a)

1. Schwaches Gesetz: Erkläre das schwache Gesetz der großen Zahlen und die Bedeutung der Konvergenz in Wahrscheinlichkeit in Bezug auf das gegebene Problem. Wie hilft dieses Gesetz der Behauptung des Unternehmens zu bestätigen?

Lösung:

Schwaches Gesetz der großen Zahlen (WLLN):

  • Das schwache Gesetz der großen Zahlen besagt, dass der Durchschnitt einer großen Anzahl von unabhängigen, identisch verteilten Zufallsvariablen mit hoher Wahrscheinlichkeit nahe am Erwartungswert dieser Zufallsvariablen liegt.
  • Mathematisch ausgedrückt: Sei \(X_1, X_2, \ldots, X_n\) eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit dem Erwartungswert \(E(X_i)=\mu\) und Varianz \(Var(X_i)<\infty\). Dann gilt für jede \(\varepsilon>0\):
  • \[\lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \mu \right| < \varepsilon \right) = 1\]
  • Die Konvergenz in Wahrscheinlichkeit bedeutet, dass für eine große Anzahl von Beobachtungen \((n)\) der Mittelwert der Stichprobe mit hoher Wahrscheinlichkeit dem wahren Erwartungswert \((\mu)\) so nahe kommt, wie man will.
  • Im Bezug auf das gegebene Problem: Das Unternehmen behauptet, dass die durchschnittliche Anzahl von defekten Teilen pro 1000 hergestellten Teilen bei 5 liegt, das bedeutet, dass der Erwartungswert \(\mu\) 0,005 (also 5 pro 1000) beträgt.
  • Um diese Behauptung zu überprüfen, wird eine Zufallsstichprobe von 10.000 Teilen entnommen. Gemäß dem schwachen Gesetz der großen Zahlen wird der Anteil der defekten Teile in dieser Stichprobe, mit hoher Wahrscheinlichkeit nahe bei 0,005 liegen, wenn die Behauptung des Unternehmens zutrifft.
  • Wenn der beobachtete Anteil der defekten Teile in der Stichprobe signifikant von 0,005 abweicht, kann die Behauptung des Unternehmens in Frage gestellt werden.

b)

2. Erwartungswertberechnung: Angenommen, die Anzahl der defekten Teile folgt einer Binomialverteilung mit den Parametern n=10.000 und p=0,005 (defekte Teile pro erzeugter Teil), berechne den Erwartungswert \(\mu\) der Anzahl der defekten Teile in der Stichprobe.

Lösung:

Erwartungswertberechnung bei einer Binomialverteilung:

  • Eine Binomialverteilung beschreibt die Anzahl der Erfolge in einer festen Anzahl von unabhängigen Bernoulli-Experimenten. Sie ist definiert durch zwei Parameter: die Anzahl der Versuche \(n\) und die Erfolgswahrscheinlichkeit \(p\) pro Versuch.
  • Der Erwartungswert \(\mu\) einer Binomialverteilung kann mit der Formel \( \mu = n \cdot p \) berechnet werden.
  • Für die gegebene Fragestellung:
  • \(n = 10.000\) (die Anzahl der produzierten Teile)
  • \(p = 0,005\) (die Wahrscheinlichkeit, dass ein Teil defekt ist)
  • Setzen wir diese Werte in die Formel ein:
  • \( \mu = n \cdot p \)
  • \( \mu = 10.000 \cdot 0,005 \)
  • \( \mu = 50 \)
  • Der Erwartungswert \(\mu\) der Anzahl der defekten Teile in der Stichprobe beträgt also 50.

c)

3. Konvergenz in Wahrscheinlichkeit: Formuliere die Konvergenz in Wahrscheinlichkeit für die Anzahl der defekten Teile, wenn die Stichprobe auf 100.000 Teile erhöht wird. Wie wird sich der Stichprobenmittelwert der Anzahl defekter Teile bezüglich des Erwartungswerts ändern?

Lösung:

Konvergenz in Wahrscheinlichkeit:

  • Die Konvergenz in Wahrscheinlichkeit bedeutet, dass der Mittelwert einer Stichprobe im Vergleich zum Erwartungswert mit zunehmender Stichprobengröße immer wahrscheinlicher nahe am wahren Erwartungswert liegt.
  • In mathematischer Formulierung: Sei \(X_1, X_2, \ldots, X_n\) eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit Erwartungswert \(\mu\). Dann gilt:
  • \[\lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \mu \right| < \varepsilon \right) = 1 \]
  • Dies besagt, dass für jedes \(\varepsilon > 0\) und eine große Zahl von Stichproben \(n\), der Mittelwert \( \frac{1}{n} \sum_{i=1}^n X_i \) mit hoher Wahrscheinlichkeit sehr nahe an \(\mu\) liegt.
  • Für das gegebene Problem:
  • Das Unternehmen behauptet, dass die durchschnittliche Anzahl von defekten Teilen pro 1000 hergestellten Teilen 5 beträgt. Das entspricht einer Wahrscheinlichkeit \(p = 0,005\) und einem Erwartungswert \(\mu = 0,005\).
  • Wenn die Stichprobengröße von 10.000 auf 100.000 Teile erhöht wird:
  • Bei \(n = 100.000\):
  • Der Erwartungswert der Anzahl defekter Teile lautet nach wie vor
  • \[\mu = n \cdot p = 100.000 \cdot 0,005 = 500\]
  • Wie ändert sich der Stichprobenmittelwert der Anzahl defekter Teile? Der Mittelwert der Anzahl defekter Teile in der Stichprobe wird sich stärker dem wahren Erwartungswert annähern, je größer die Stichprobe \(n\) wird. Bei \(n = 100.000\) erwarten wir, dass der Anteil der defekten Teile in der Stichprobe noch genauer dem wahren Anteil von \(0,005\) entspricht.
  • Zusammengefasst:
  • Wenn \(n\) von 10.000 auf 100.000 erhöht wird, wird der Stichprobenmittelwert der Anzahl defekter Teile noch näher zum Erwartungswert von 500 konvergieren.

d)

4. Simulation: Führe eine kurze Simulation in Python durch, die 10.000 Teile basierend auf der angegebenen Binomialverteilung erzeugt. Berechne den Stichprobenmittelwert und vergleiche ihn mit dem erwarteten Mittelwert. Kannst Du anhand des Ergebnisses eine statistische Aussage zur Behauptung des Unternehmens treffen?

Lösung:

Simulation in Python: Lass uns eine Simulation durchführen, um 10.000 Teile basierend auf der angegebenen Binomialverteilung zu erzeugen und den Stichprobenmittelwert zu berechnen. Hier ist der Python-Code für die Simulation:

 import numpy as np  # Parameter festlegen n = 10000 p = 0.005  # Simulation der Anzahl der defekten Teile basierend auf der Binomialverteilung defekte_teile = np.random.binomial(n, p, size=1)[0]  # Berechnung des Stichprobenmittelwerts stichprobenmittelwert = defekte_teile / n erwartungswert = n * p  # Ergebnisse ausgeben print(f'Anzahl der defekten Teile in der Stichprobe: {defekte_teile}') print(f'Stichprobenmittelwert: {stichprobenmittelwert}') print(f'Erwartungswert: {erwartungswert}') 
Erklärung des Codes:
  • Import der Bibliothek: numpy wird importiert, um Zufallszahlen zu generieren und Berechnungen durchzuführen.
  • Parameter festlegen: \(n = 10.000\) (Anzahl der Teile) und \(p = 0.005\) (Wahrscheinlichkeit eines defekten Teils) werden definiert.
  • Simulation der defekten Teile: Die Binomialverteilung wird verwendet, um die Anzahl der defekten Teile zu simulieren.
  • Berechnung des Stichprobenmittelwerts: Der Stichprobenmittelwert wird durch Division der Anzahl der defekten Teile durch die Gesamtzahl der produzierten Teile (\(n\)) berechnet. Der erwartete Mittelwert wird ebenfalls berechnet.
  • Ausgabe: Die Anzahl der defekten Teile, der Stichprobenmittelwert und der erwartete Mittelwert werden ausgegeben.
Ergebnisse und statistische Aussage:
  • Nach Ausführung des Codes solltest Du Werte für die Anzahl der defekten Teile, den Stichprobenmittelwert und den erwarteten Mittelwert erhalten.
  • Zum Beispiel könnte die Ausgabe sein:
 Anzahl der defekten Teile in der Stichprobe: 47 Stichprobenmittelwert: 0.0047 Erwartungswert: 50.0 
  • Vergleiche den Stichprobenmittelwert (hier 0.0047) mit dem Erwartungswert (hier 0.005). Wenn der Stichprobenmittelwert nahe bei 0.005 liegt, unterstützt dies die Behauptung des Unternehmens. Abweichungen in einem realistischen Bereich können aufgrund von Zufallsvariationen auftreten.
  • Wenn der Stichprobenmittelwert signifikant von 0.005 abweicht, könnte dies darauf hinweisen, dass die Behauptung des Unternehmens nicht zutrifft.
  • Aufgabe 4)

    Du bist ein Analyst bei einem internationalen Beratungsunternehmen und sollst einen Bericht über die Faktoren, die das Umsatzwachstum eines multinationalen Unternehmens beeinflussen, erstellen. Zu diesem Zweck analysierst Du, wie verschiedene unabhängige Variablen wie Marketingausgaben (\textit{Marketing Spend}), Forschungs- und Entwicklungsausgaben (\textit{R&D Spend}) und die Anzahl der Mitarbeiter (\textit{Employee Count}) das jährliche Umsatzwachstum (\textit{Annual Revenue Growth}) beeinflussen.

    a)

    Formuliere ein multiples lineares Regressionsmodell, um die Beziehung zwischen dem jährlichen Umsatzwachstum (abhängige Variable) und den drei unabhängigen Variablen (Marketingausgaben, Forschungs- und Entwicklungsausgaben und die Anzahl der Mitarbeiter) zu schätzen.

    Lösung:

    Um die Beziehung zwischen dem jährlichen Umsatzwachstum (Annual Revenue Growth) und den drei unabhängigen Variablen (Marketingausgaben, Forschungs- und Entwicklungsausgaben und die Anzahl der Mitarbeiter) zu schätzen, können wir ein multiples lineares Regressionsmodell formulieren. Ein multiples lineares Regressionsmodell hat die folgende allgemeine Form:

    • Formel: \(\text{Y} = \beta_0 + \beta_1 \text{X}_1 + \beta_2 \text{X}_2 + \beta_3 \text{X}_3 + \text{ε}\)

      Hierbei:

      • \(Y\) ist die abhängige Variable, also das jährliche Umsatzwachstum (Annual Revenue Growth).
      • \(\beta_0\) ist der Achsenabschnitt (Intercept) des Modells.
      • \(\beta_1\), \(\beta_2\) und \(\beta_3\) sind die Regressionskoeffizienten, die die Änderung in der abhängigen Variablen erklären, wenn die jeweiligen unabhängigen Variablen um eine Einheit geändert werden.
      • \(\text{X}_1\) ist die erste unabhängige Variable, die Marketingausgaben (Marketing Spend).
      • \(\text{X}_2\) ist die zweite unabhängige Variable, die Forschungs- und Entwicklungsausgaben (R&D Spend).
      • \(\text{X}_3\) ist die dritte unabhängige Variable, die Anzahl der Mitarbeiter (Employee Count).
      • \(\text{ε}\) ist der Fehlerterm, der die Residuen (Störgrößen) des Modells darstellt.

    Durch Verwendung eines Datensets, das diese Variablen enthält, kann eine multiple lineare Regression durchgeführt werden. In Python könnte der grundlegende Code für die Implementation dieses Modells wie folgt aussehen:

     import pandas as pd  from sklearn.linear_model import LinearRegression   # Beispiel-Datensatz  data = { 'Annual Revenue Growth': [5.1, 2.3, 3.3, 6.4, 5.7], 'Marketing Spend': [100, 150, 200, 250, 300], 'R&D Spend': [50, 60, 70, 80, 100], 'Employee Count': [10, 12, 14, 16, 18] }   df = pd.DataFrame(data)   # Unabhängige Variablen (X) und abhängige Variable (Y)  X = df[['Marketing Spend', 'R&D Spend', 'Employee Count']]  Y = df['Annual Revenue Growth']   # Modell erstellen und anpassen  model = LinearRegression()  model.fit(X, Y)   # Modellkoeffizienten  intercept = model.intercept_  coefficients = model.coef_   print('Intercept:', intercept)  print('Coefficients:', coefficients)  

    Dieser Code erstellt ein Regressionsmodell und passt es den Daten an. Danach werden der Achsenabschnitt und die Regressionskoeffizienten ausgedruckt. Diese geben Aufschluss darüber, wie stark die unabhängigen Variablen das jährliche Umsatzwachstum beeinflussen.

    b)

    Angenommen, die geschätzten Regressionskoeffizienten aus dem oben genannten Modell sind: \(\beta_0 = 5.6, \beta_1 = 0.9, \beta_2 = 1.2, \beta_3 = 0.05\). Interpretieren diese Koeffizienten und berechne das geschätzte jährliche Umsatzwachstum, wenn die Marketingausgaben 100.000€, die Forschungs- und Entwicklungsausgaben 200.000€, und die Anzahl der Mitarbeiter 50 beträgt.

    Lösung:

    Um die geschätzten Regressionskoeffizienten zu interpretieren und das jährliche Umsatzwachstum zu berechnen, folgen wir den folgenden Schritten:

    • Die Koeffizienten \(\beta_1 = 0.9\), \(\beta_2 = 1.2\) und \(\beta_3 = 0.05\) geben an, wie stark sich das jährliche Umsatzwachstum ändert, wenn die jeweiligen unabhängigen Variablen um eine Einheit geändert werden, während alle anderen Variablen konstant bleiben.
    • \(\beta_0 = 5.6\) ist der Achsenabschnitt. Das ist der geschätzte Wert des jährlichen Umsatzwachstums, wenn alle unabhängigen Variablen null sind.
    • \(\beta_1 = 0.9\) bedeutet, dass eine Erhöhung der Marketingausgaben um 1 Einheit (z.B. 1.000€) zu einer Erhöhung des jährlichen Umsatzwachstums um 0.9 führt, vorausgesetzt, dass die anderen Variablen konstant bleiben.
    • \(\beta_2 = 1.2\) bedeutet, dass eine Erhöhung der Forschungs- und Entwicklungsausgaben um 1 Einheit (z.B. 1.000€) zu einer Erhöhung des jährlichen Umsatzwachstums um 1.2 führt.
    • \(\beta_3 = 0.05\) bedeutet, dass eine Erhöhung der Anzahl der Mitarbeiter um 1 Person zu einer Erhöhung des jährlichen Umsatzwachstums um 0.05 führt.

    Um das geschätzte jährliche Umsatzwachstum zu berechnen, wenn die Marketingausgaben 100.000€, die Forschungs- und Entwicklungsausgaben 200.000€ und die Anzahl der Mitarbeiter 50 beträgt, setzen wir diese Werte in die Regressionsgleichung ein:

    • Regressionsgleichung: \(Y = \beta_0 + \beta_1 \text{X}_1 + \beta_2 \text{X}_2 + \beta_3 \text{X}_3\)
    • Mit den gegebenen Koeffizienten und Werten: \(Y = 5.6 + 0.9 \cdot 100 + 1.2 \cdot 200 + 0.05 \cdot 50\)

    Berechnung:

    • \(Y = 5.6 + 90 + 240 + 2.5\)

    \(Y = 338.1\)

    Das geschätzte jährliche Umsatzwachstum beträgt also 338.1.

    Sign Up

    Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

    Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

    Kostenloses Konto erstellen

    Du hast bereits ein Konto? Anmelden