Statistics - Exam.pdf

Statistics - Exam
Statistics - Exam Aufgabe 1) Angenommen, Du arbeitest als Datenanalyst für ein internationales Wirtschaftsunternehmen und hast einen Datensatz mit den monatlichen Umsätzen (in Tausend Euro) für das letzte Jahr. Die Werte sind wie folgt: 56, 78, 45, 92, 67, 89, 75, 82, 61, 94, 88, 79 Verwende diese Informationen, um Histogramme und Boxplots zu erstellen und zu analysieren. a) 1. Erstellung eines Hi...

© StudySmarter 2024, all rights reserved.

Statistics - Exam

Aufgabe 1)

Angenommen, Du arbeitest als Datenanalyst für ein internationales Wirtschaftsunternehmen und hast einen Datensatz mit den monatlichen Umsätzen (in Tausend Euro) für das letzte Jahr. Die Werte sind wie folgt:

  • 56, 78, 45, 92, 67, 89, 75, 82, 61, 94, 88, 79

Verwende diese Informationen, um Histogramme und Boxplots zu erstellen und zu analysieren.

a)

1. Erstellung eines Histogramms:

Zeichne ein Histogramm basierend auf den gegebenen Umsatzzahlen. Teile die Daten in passende Intervalle auf und berechne die Häufigkeit für jede Intervall. Beschrifte die X- und Y-Achsen. Erkläre kurz, was das Histogramm über die Verteilung der Umsätze aussagt.

Lösung:

Lass uns Schritt für Schritt die Erstellung eines Histogramms angehen:

  • Erstelle die Intervalle und berechne die Häufigkeiten:
  1. Die gegebenen Umsatzzahlen sind: 56, 78, 45, 92, 67, 89, 75, 82, 61, 94, 88, 79
  2. Für ein Histogramm teilen wir die Daten in passende Intervalle. Eine gute Praxis ist es, 5-10 Intervalle zu erstellen, je nach Datensätze.
  3. In diesem Fall können wir die Intervalle wie folgt definieren:
  • 40-50
  • 50-60
  • 60-70
  • 70-80
  • 80-90
  • 90-100
  • Jetzt berechne die Häufigkeit für jedes Intervall:
    • 40-50: 1 (45)
    • 50-60: 1 (56)
    • 60-70: 2 (61, 67)
    • 70-80: 3 (75, 78, 79)
    • 80-90: 3 (82, 88, 89)
    • 90-100: 2 (92, 94)

    Basierend auf diesen Berechnungen können wir das Histogramm zeichnen:

    import matplotlib.pyplot as pltumsatze = [56, 78, 45, 92, 67, 89, 75, 82, 61, 94, 88, 79]intervalle = [40, 50, 60, 70, 80, 90, 100]plt.hist(umsatze, bins=intervalle, edgecolor='black')plt.xlabel('Umsatz in Tausend Euro')plt.ylabel('Häufigkeit')plt.title('Histogramm der monatlichen Umsätze')plt.show()

    Analyse des Histogramms:

    • Das Histogramm zeigt, dass die meisten Umsätze im Bereich von 70.000 bis 90.000 Euro liegen.
    • Es gibt einige niedrigere Umsätze in den Bereichen 40.000 bis 60.000 Euro und einige höhere Umsätze in den Bereichen 90.000 bis 100.000 Euro.
    • Die Verteilung hat eine leichte Tendenz zur Mitte hin, was bedeutet, dass Extreme (sehr niedrige oder sehr hohe Umsätze) weniger häufig sind.
    • Dies könnte darauf hinweisen, dass das Unternehmen in den meisten Monaten eine stabile Umsatzleistung erbringt.

    b)

    2. Erstellung eines Boxplots:

    Berechne die folgenden Komponenten für einen Boxplot aus den Umsatzzahlen:

    • Minimum
    • Q1
    • Median (Q2)
    • Q3
    • Maximum
    • Ausreißer (falls vorhanden)

    Zeichne darauf basierend einen Boxplot und erläutere, was der Boxplot über die Umsätze aussagt.

    Lösung:

    Um einen Boxplot zu erstellen, müssen wir zunächst die wesentlichen statistischen Kennzahlen der Umsatzzahlen berechnen. Hier sind die Schritte:

    • Minimum
    • Q1 (erstes Quartil)
    • Median (Q2 oder zweites Quartil)
    • Q3 (drittes Quartil)
    • Maximum
    • Ausreißer (falls vorhanden)

    Die gegebenen Umsatzzahlen sind: 56, 78, 45, 92, 67, 89, 75, 82, 61, 94, 88, 79.

    1. Sortiere die Umsatzzahlen:
    • 45, 56, 61, 67, 75, 78, 79, 82, 88, 89, 92, 94
  • Berechne das Minimum und Maximum:
    • Minimum: 45
    • Maximum: 94
  • Berechne den Median (Q2):
    • Da die Datenmenge geradzahlig ist (12 Datenpunkte), ist der Median der Durchschnitt der beiden mittleren Werte:
      • Median (Q2) = \(\frac{78 + 79}{2} = 78.5\)
  • Berechne das erste Quartil (Q1) und das dritte Quartil (Q3):
    • Q1 ist der Median der ersten Hälfte (exklusive des Gesamtmedians):
      • Q1 = Median von (45, 56, 61, 67, 75, 78) = \(\frac{61 + 67}{2} = 64\)
    • Q3 ist der Median der zweiten Hälfte (exklusive des Gesamtmedians):
      • Q3 = Median von (79, 82, 88, 89, 92, 94) = \(\frac{88 + 89}{2} = 88.5\)
  • Berechne die Interquartil-Spanne (IQR):
    • IQR = Q3 - Q1 = 88.5 - 64 = 24.5
  • Identifiziere Ausreißer:
    • Ausreißer liegen außerhalb der folgenden Grenzen:
      • Untergrenze: Q1 - 1.5 * IQR = 64 - 1.5 * 24.5 = 27.25
      • Obergrenze: Q3 + 1.5 * IQR = 88.5 + 1.5 * 24.5 = 125.75
      • Da alle Datenpunkte innerhalb dieser Grenzen liegen, gibt es keine Ausreißer.

    Nun, basierend auf diesen Berechnungen, können wir den Boxplot zeichnen:

    import matplotlib.pyplot as pltumsatze = [56, 78, 45, 92, 67, 89, 75, 82, 61, 94, 88, 79]plt.boxplot(umsatze, vert=False)plt.xlabel('Umsatz in Tausend Euro')plt.title('Boxplot der monatlichen Umsätze')plt.show()

    Analyse des Boxplots:

    • Der Boxplot zeigt, dass der Median der Umsatzzahlen bei 78.5 liegt, was darauf hindeutet, dass die mittlere Monatsumsatzleistung des Unternehmens stark ist.
    • Die Interquartil-Spanne (IQR) von 24.5 zeigt, dass es eine moderate Streuung der monatlichen Umsatzzahlen gibt.
    • Da es keine Ausreißer gibt, zeigt dies, dass die monatlichen Umsätze relativ stabil sind, ohne extreme Schwankungen.
    • Die Quartilwerte Q1 (64) und Q3 (88.5) helfen dabei, die Verteilung der Daten zu verstehen. Der Großteil der Umsatzzahlen liegt zwischen diesen beiden Werten.
    • Die relativ geringe Spannweite innerhalb des Boxplots deutet auf eine konsistente Umsatzleistung über die Monate hinweg hin.

    c)

    3. Analyse der Schiefe:

    Betrachte sowohl das Histogramm als auch den Boxplot. Diskutiere, ob die Daten symmetrisch, links-schief oder rechts-schief sind. Begründe Deine Schlussfolgerungen und stelle fest, welche Diagrammeigenschaften auf die Schiefe hinweisen.

    Lösung:

    Um die Schiefe der Daten zu bestimmen, analysieren wir sowohl das Histogramm als auch den Boxplot. Hier sind die zu überlegenden Aspekte:

    • Das Histogramm zeigt die Verteilung der Daten über unterschiedliche Intervalle.
    • Der Boxplot zeigt die zentrale Tendenz, die Interquartil-Spanne und mögliche Ausreißer der Daten.

    Betrachten wir zunächst das Histogramm:

    • Zeichne oder erinnere Dich an das Histogramm, das Du im ersten Teil der Übung erstellt hast. Die Intervalle waren:
      • 40-50: 1
      • 50-60: 1
      • 60-70: 2
      • 70-80: 3
      • 80-90: 3
      • 90-100: 2
    • Das Histogramm zeigt, dass die meisten Datenpunkte im Bereich von 70 bis 90 tausend Euro liegen.
    • Der linke Teil des Histogramms (40-70 tausend Euro) hat weniger Daten als der rechte Teil (70-100 tausend Euro), was auf eine rechts-schiefe Verteilung hinweist.

    Betrachten wir nun den Boxplot:

    • Zeichne oder erinnere Dich an den Boxplot, den Du im zweiten Teil der Übung erstellt hast.
    • Der Median (78.5) liegt näher an Q3 (88.5) als an Q1 (64), was ebenfalls auf eine Schiefe in den Daten hinweist.
    • Der größere Abstand zwischen Q1 und dem Minimum im Vergleich zu Q3 und dem Maximum deutet darauf hin, dass die Verteilung vermutlich rechtsschief ist.

    Schlussfolgerung:

    Basierend auf der Analyse sowohl des Histogramms als auch des Boxplots lässt sich feststellen, dass die Daten:

    • Rechtsschief (positiv schief) sind:
      • Das Histogramm zeigt eine höhere Häufigkeit der Daten im oberen Bereich der Verteilung (70-100 tausend Euro), was auf eine rechts-schiefe Verteilung hinweist.
      • Der Boxplot zeigt einen Median, der näher an Q3 liegt, während der Abstand zwischen Minimum und Q1 größer ist als der Abstand zwischen Q3 und Maximum.

    Zusammenfassend kann man durch die Betrachtung des Histogramms und des Boxplots feststellen, dass die monatlichen Umsatzzahlen des Unternehmens tendenziell rechtsschief verteilt sind, was durch die größere Anzahl höherer Werte und die jeweiligen Abstände der Quartile bestätigt wird.

    d)

    4. Vergleich der Diagramme:

    Vergleiche die Informationen, die Du aus dem Histogramm und dem Boxplot gewonnen hast. Welche zusätzlichen Einblicke bietet jeder Diagrammtyp und in welchen Situationen wäre der eine Typ dem anderen vorzuziehen?

    Lösung:

    Der Vergleich zwischen Histogramm und Boxplot kann je nach Situation unterschiedliche Einblicke in die Daten bieten und verschiedene Aspekte der Verteilung und Tendenz hervorheben. Hier sind die wesentlichen Unterschiede und Einsatzmöglichkeiten:

    Informationen aus dem Histogramm:

    • Zeigt die Verteilung der Daten über festgelegte Intervalle an.
    • Kann Hinweise auf die Form der Verteilung geben (z.B. ob die Verteilung symmetrisch, links-schief oder rechts-schief ist).
    • Hilft dabei, die Häufigkeit von Datenpunkten in verschiedenen Bereichen zu visualisieren.
    • Geeignet für die Identifizierung von Häufungen oder Lücken in den Daten.

    Zusätzliche Einblicke aus dem Histogramm:

    • Erlaubt eine detaillierte Ansicht der Datenverteilung in den einzelnen Intervallen.
    • Hilft, potenzielle Moden (Häufigkeitsspitzen) der Daten zu identifizieren.

    Informationen aus dem Boxplot:

    • Zeigt die zentrale Tendenz der Daten (Median) und die Verteilung der Daten um die Quartile herum (Q1 und Q3).
    • Stellt die Spannweite (Minimum bis Maximum) und die Interquartil-Spanne (IQR) visuell dar.
    • Ermöglicht die schnelle Erkennung von Ausreißern.
    • Geeignet für Vergleiche von Verteilungen zwischen verschiedenen Datensätzen.

    Zusätzliche Einblicke aus dem Boxplot:

    • Gibt eine direkte Ansicht der Verteilung innerhalb der zentralen 50% der Daten.
    • Erlaubt, die Symmetrie und Schiefe der Datenverteilung schnell zu beurteilen.
    • Identifiziert Ausreißer und Extremwerte effizient.

    Wann ist welcher Diagrammtyp vorzuziehen?

    • Histogramm: Sollte verwendet werden, wenn Du detaillierte Informationen über die Form der Datenverteilung und die Häufigkeit in bestimmten Intervallen benötigst. Es ist besonders nützlich, wenn man Häufungen oder Verteilungstendenzen in den Daten genauer untersuchen möchte.
    • Boxplot: Sollte verwendet werden, wenn Du eine schnelle Übersicht über die zentrale Tendenz, die Verteilung, die Streuung und potenzielle Ausreißer der Daten benötigst. Es ist auch sehr nützlich, wenn Du mehrere Datensätze vergleichen möchtest, da es leicht ist, mehrere Boxplots nebeneinander zu platzieren und zu analysieren.

    Zusammenfassung:

    Beide Diagrammtypen bieten wertvolle Einblicke in unterschiedliche Aspekte der Daten. Das Histogramm liefert detaillierte Informationen über die Verteilungsform und Häufigkeiten, während der Boxplot eine schnelle Übersicht über zentrale Tendenz, Variabilität und potenzielle Ausreißer bietet. Die Wahl des geeigneten Diagrammtyps hängt von der spezifischen Analyseaufgabe und den gewünschten Erkenntnissen ab.

    Aufgabe 2)

    Ein internationales Marktforschungsunternehmen hat eine Stichprobe von 500 internationalen Wirtschaftsstudien-Studenten der Universität Erlangen-Nürnberg hinsichtlich ihrer monatlichen Ausgaben für Studienmaterial befragt. Der erhobene Stichprobenmittelwert beträgt 150 Euro mit einer Standardabweichung von 20 Euro. Berechne und interpretiere das 95% Konfidenzintervall für den durchschnittlichen Betrag, den alle Studenten der Universität für Studienmaterial monatlich ausgeben.

    a)

    Berechne den z-Wert für ein 95% Konfidenzintervall.

    Lösung:

    Um den z-Wert für ein 95% Konfidenzintervall zu berechnen, musst Du den kritischen Wert der Standardnormalverteilung ermitteln, der die gesuchte Fläche abdeckt. Ein 95% Konfidenzintervall bedeutet, dass 95% der Fläche unter der Normalverteilungskurve im Intervall liegt, wobei 2.5% darüber und 2.5% darunter liegen.

    • 1. Schritt: Ermittlung der Flächenanteile

    Da das 95%ige Konfidenzintervall symmetrisch ist, liegt die gesuchte Fläche jeweils 2.5% in den äußeren Bereichen (also insgesamt 5%) und 95% dazwischen.

    • 2. Schritt: Nachschauen des kritischen z-Werts

    In eine Tabelle der Standardnormalverteilung (z-Tabelle) oder mithilfe eines entsprechenden Tools oder Taschenrechners schaut man die Grenzen für die 2,5%-Marke nach.

    Der kritische z-Wert bei einem 95% Konfidenzintervall liegt bei:

    z = 1.96

    Dh. für ein 95% Konfidenzintervall hat der z-Wert den Wert 1.96.

    c)

    Interpretieren: Erkläre, was das berechnete Konfidenzintervall hinsichtlich der Ausgaben der Studierenden bedeutet.

    Lösung:

    Die Berechnung des 95% Konfidenzintervalls für den durchschnittlichen Betrag, den alle Studenten der Universität für Studienmaterial monatlich ausgeben, ergab ein Intervall von:

    [148.25, 151.75] Euro

    Interpretation:

    Das 95% Konfidenzintervall bietet einen Bereich, in dem wir mit 95%iger Sicherheit erwarten, dass der wahre durchschnittliche Betrag, den alle Studierenden der Universität Erlangen-Nürnberg monatlich für Studienmaterial ausgeben, liegt. Im Detail bedeutet das:

    • Wir sind zu 95% sicher, dass der tatsächliche Durchschnitt der monatlichen Ausgaben für Studienmaterial für alle Studierenden der Universität Erlangen-Nürnberg zwischen 148,25 Euro und 151,75 Euro liegt.
    • Da dieses Intervall recht schmal ist, weist dies darauf hin, dass der Stichprobenmittelwert eine relativ präzise Schätzung des tatsächlichen Durchschnitts ist, bedingt durch die große Stichprobengröße und die relativ geringe Standardabweichung.
    • Praktisch bedeutet dies für die Universität oder andere Interessenträger, dass sie sich hinsichtlich der finanziellen Belastungen der Studierenden für Studienmaterial in dem angegebenen Bereich orientieren können. Es kann bei der Planung von Unterstützungsmaßnahmen oder bei der Einschätzung der wirtschaftlichen Belastung von Studenten helfen.

    Zusammengefasst gibt das Konfidenzintervall wertvolle Hinweise darauf, in welchem Bereich sich der durchschnittliche monatliche Ausgabeumfang für Studienmaterial bewegt, und bietet eine statistisch fundierte Basis für Entscheidungen.

    d)

    Wie würde sich das Konfidenzintervall ändern, wenn das Vertrauen auf 99% erhöht wird? Erläutere die Auswirkungen der Änderung des Konfidenzniveaus auf das Intervall.

    Lösung:

    Änderung des Konfidenzintervalls bei Erhöhung des Konfidenzniveaus auf 99%

    Um das Konfidenzintervall zu verändern, wenn das Vertrauen auf 99% erhöht wird, müssen wir den z-Wert für ein 99% Konfidenzniveau verwenden und die gleiche Formel wie zuvor anwenden:

    • Formel: \( \text{Konfidenzintervall} = \bar{X} \pm z \times \frac{\sigma}{\sqrt{n}} \)
    • Gegeben:
      • Stichprobenmittelwert (\( \bar{X} \)) = 150 Euro
      • Standardabweichung (\( \sigma \)) = 20 Euro
      • Stichprobengröße (\( n \)) = 500
      • z-Wert für ein 99% Konfidenzintervall ≈ 2.576

    Nun können wir das Konfidenzintervall berechnen:

    • 1. Berechnung des Standardfehlers (\( SE \)):
    SE = \frac{\sigma}{\sqrt{n}} = \frac{20}{\sqrt{500}} ≈ 0.8944
    • 2. Berechnung des Konfidenzintervalls:
    Konfidenzintervall = 150 \pm 2.576 \times 0.8944
    Untere Grenze: 150 - 2.576 \times 0.8944 ≈ 147.69
    Obere Grenze: 150 + 2.576 \times 0.8944 ≈ 152.31

    Demzufolge ergibt sich das 99% Konfidenzintervall für den durchschnittlichen monatlichen Betrag, den alle Studenten der Universität für Studienmaterial ausgeben, zu:

    [147.69, 152.31] Euro

    Auswirkungen der Änderung des Konfidenzniveaus auf das Intervall:

    • Breiteres Intervall: Wenn das Konfidenzniveau von 95% auf 99% erhöht wird, wird das Intervall breiter. Das bedeutet, dass wir uns sicherer sind, dass der wahre Mittelwert innerhalb dieses breiteren Intervalls liegt.
    • Höherer z-Wert: Ein höheres Konfidenzniveau erfordert einen höheren z-Wert, wodurch das Intervall erweitert wird, um einen größeren Bereich abzudecken.
    • Sicherheit vs. Präzision: Es besteht ein Kompromiss zwischen Sicherheit und Präzision. Ein höheres Konfidenzniveau (99%) gibt uns mehr Sicherheit, dass der wahre Mittelwert innerhalb des Intervalls liegt, aber das Intervall wird weniger präzise (breiter). Ein niedrigeres Konfidenzniveau (z.B. 95%) ergibt ein präziseres Intervall, aber wir sind etwas weniger sicher, dass der wahre Mittelwert darin enthalten ist.

    Zusammengefasst bedeutet die Erhöhung des Konfidenzniveaus auf 99%, dass das Konfidenzintervall breiter wird, was eine höhere Sicherheit hinsichtlich der Schätzung des wahren durchschnittlichen Betrags bietet, den alle Studenten der Universität für Studienmaterial ausgeben.

    Aufgabe 3)

    Du bist Ökonom in einem weltweit tätigen Unternehmen und möchtest die durchschnittliche Produktivität zweier Produktionsstätten in verschiedenen Ländern vergleichen. Die Produktionsstätte A befindet sich in Deutschland und Produktionsstätte B in Spanien. Um die Effektivität der Produktionsstätten zu bewerten, hast Du eine Stichprobe von 30 Arbeitern aus jeder Produktionsstätte genommen und deren Produktivität (Anzahl hergestellter Produkte pro Tag) aufgezeichnet. Du möchtest nun einen Hypothesentest durchführen, um zu prüfen, ob es einen signifikanten Unterschied in der durchschnittlichen Produktivität der beiden Produktionsstätten gibt. Verwende ein Signifikanzniveau von \(\text{α} = 0.05\).

    b)

    Die durchschnittliche Produktivität für die Stichproben beträgt in Produktionsstätte A \(\bar{X}_A = 85\) mit einer Standardabweichung von \(\text{σ}_A = 10\) und in Produktionsstätte B \(\bar{X}_B = 80\) mit einer Standardabweichung von \(\text{σ}_B = 12\). Führe einen zweiseitigen t-Test durch und entscheide basierend auf Deinen Ergebnissen, ob die Nullhypothese (\textbf{H0}) abgelehnt werden sollte. Verwende die Formel für den t-Wert: \[\text{t} = \frac{(\bar{X}_A - \bar{X}_B)}{\text{s}_\text{pooled} \times \frac{1}{\text{n}_A} + \frac{1}{\text{n}_B}} \] wobei \(\text{s}_\text{pooled}\) der gepoolte Standardfehler ist: \[\text{s}_\text{pooled} = \frac{(\text{n}_A - 1)\text{σ}^2_A + (\text{n}_B - 1)\text{σ}^2_B}{\text{n}_A + \text{n}_B - 2}\text{ und n}_A = \text{n}_B = 30 \]. Interpretiere den \(\text{p}-Wert\) und ziehe Schlussfolgerungen.

    Lösung:

    • Gegebene Werte:
      • \(\bar{X}_A = 85\)
      • \(\sigma_A = 10\)
      • \(\bar{X}_B = 80\)
      • \(\sigma_B = 12\)
      • \(n_A = n_B = 30\)
    • Berechnung des gepoolten Standardfehlers (\(s_{pooled}\)):
      • Die Formel für den gepoolten Standardfehler lautet:
      • \[ s_{pooled} = \sqrt{\frac{(n_A - 1)\sigma_A^2 + (n_B - 1)\sigma_B^2}{n_A + n_B - 2}} \]
      • Einsetzen der gegebenen Werte:
      • \( n_A - 1 = 30 - 1 = 29 \)
      • \( n_B - 1 = 30 - 1 = 29 \)
      • \[ s_{pooled} = \sqrt{\frac{(29 \cdot 10^2) + (29 \cdot 12^2)}{30 + 30 - 2}} \]
      • \[ = \sqrt{\frac{(29 \cdot 100) + (29 \cdot 144)}{58}} \]
      • \[ = \sqrt{\frac{2900 + 4176}{58}} \]
      • \[ = \sqrt{\frac{7076}{58}} \]
      • \[ = \sqrt{122} \]
      • \[ \approx 11.05 \]
    • Berechnung des t-Werts:
      • Die Formel für den t-Wert lautet:
      • \[ t = \frac{(\bar{X}_A - \bar{X}_B)}{s_{pooled} \times \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}} \]
      • Einsetzen der gegebenen Werte:
      • \(\bar{X}_A - \bar{X}_B = 85 - 80 = 5\)
      • \[ t = \frac{5}{11.05 \times \sqrt{\frac{1}{30} + \frac{1}{30}}} \]
      • \[ = \frac{5}{11.05 \times \sqrt{\frac{2}{30}}} \]
      • \[ = \frac{5}{11.05 \times \sqrt{0.0667}} \]
      • \[ = \frac{5}{11.05 \times 0.2582} \]
      • \[ = \frac{5}{2.853} \]
      • \[ \approx 1.75 \]
    • Berechnung des p-Werts:
      • Für einen zweiseitigen t-Test mit \(df = n_A + n_B - 2 = 30 + 30 - 2 = 58\) und einem t-Wert von 1.75 kann der p-Wert aus einer t-Verteilungstabelle oder mit einem Statistik-Softwarepaket ermittelt werden.
      • Der ungefähre p-Wert für \( t = 1.75 \) bei \( df = 58 \) ist etwa 0.085.
    • Entscheidungsregel:
      • Vergleiche den p-Wert mit dem Signifikanzniveau \( \alpha = 0.05 \):
      • Da der p-Wert (0.085) größer ist als \( \alpha = 0.05 \), behalten wir die Nullhypothese (\( H_0 \)) bei.
      • Es gibt nicht genügend Beweise, um zu schlussfolgern, dass es einen signifikanten Unterschied in der durchschnittlichen Produktivität der beiden Produktionsstätten gibt.
    • Schlussfolgerung:
      • Basierend auf den durchgeführten Berechnungen und dem p-Wert wird die Nullhypothese nicht abgelehnt.
      • Es kann daher nicht gesagt werden, dass die durchschnittliche Produktivität zwischen den Produktionsstätten in Deutschland und Spanien signifikant unterschiedlich ist.

    Aufgabe 4)

    Eine Getränkeherstellerfirma möchte den Einfluss mehrerer Variablen wie Werbungsausgaben (in Tausend Euro), Preis pro Einheit (in Euro), und Anzahl der Verkaufsfilialen auf den Umsatz (in Tausend Einheiten) untersuchen. Hierzu soll ein multiples Regressionsmodell aufgestellt werden, um zu prognostizieren, wie Änderungen in diesen unabhängigen Variablen den Umsatz beeinflussen. Um das Modell zu validieren und dessen Annahmen zu überprüfen, verwendet das Unternehmen verschiedene statistische Diagnosewerkzeuge.

    a)

    Stelle ein multiples Regressionsmodell für den Umsatz (\textit{Umsatz}) auf, das die Werbungsausgaben (\textit{Werbungsausgaben}), den Preis pro Einheit (\textit{Preis}) und die Anzahl der Verkaufsfilialen (\textit{Filialen}) inkludiert. Formuliere das Modell und erkläre die Bedeutung der Koeffizienten im Kontext des Unternehmens.

    Lösung:

    Multiples Regressionsmodell aufstellen

    Modellformulierung

    • Das multiple Regressionsmodell zur Untersuchung des Einflusses der unabhängigen Variablen (Werbungsausgaben, Preis und Anzahl der Verkaufsfilialen) auf den Umsatz kann wie folgt formuliert werden:
    Umsatz = β₀ + β₁ \times Werbungsausgaben + β₂ \times Preis + β₃ \times Filialen + ϵ
    • Hierbei sind:
    • Umsatz: Die abhängige Variable, gemessen in Tausend Einheiten.
    • Werbungsausgaben: Unabhängige Variable, gemessen in Tausend Euro.
    • Preis: Unabhängige Variable, gemessen in Euro pro Einheit.
    • Filialen: Unabhängige Variable, Anzahl der Verkaufsfilialen.
    • β₀: Der Intercept (Achsenabschnitt) des Modells, welcher den geschätzten Umsatz darstellt, wenn alle unabhängigen Variablen gleich Null sind.
    • β₁: Der Koeffizient der Werbungsausgaben, der die geschätzte Änderung des Umsatzes für jede zusätzliche Einheit der Werbungsausgaben beschreibt (in Tausend Euro).
    • β₂: Der Koeffizient des Preises, der die geschätzte Änderung des Umsatzes für jede zusätzliche Einheit Preiserhöhung (in Euro) beschreibt.
    • β₃: Der Koeffizient der Verkaufsfilialen, der die geschätzte Änderung des Umsatzes für jede zusätzliche Verkaufsfiliale beschreibt.
    • ϵ: Der Fehlerterm, welcher die Abweichungen der tatsächlichen Umsatzwerte von den durch das Modell vorhergesagten Werten repräsentiert.

    Bedeutung der Koeffizienten

    • β₀ (Intercept): Gibt den geschätzten Umsatz an, wenn die Werbungsausgaben, der Preis pro Einheit und die Anzahl der Verkaufsfilialen null sind. In der Praxis haben diese Werte wenig realistische Bedeutung, da sie negative oder unrealistische Werte darstellen könnten.
    • β₁ (Werbungsausgaben): Ein positiver β₁-Koeffizient zeigt an, dass höhere Werbungsausgaben mit einem Anstieg des Umsatzes verbunden sind. Zum Beispiel, wenn β₁ = 0.5, bedeutet das, dass für jede tausend Euro zusätzliche Werbungsausgaben der Umsatz um 0.5 Tausend Einheiten steigt.
    • β₂ (Preis): Ein negativer β₂-Koeffizient deutet darauf hin, dass ein höherer Preis pro Einheit zu einem Rückgang des Umsatzes führt. Zum Beispiel, wenn β₂ = -0.2, bedeutet das, dass für jeden Euro Preissteigerung der Umsatz um 0.2 Tausend Einheiten sinkt.
    • β₃ (Filialen): Ein positiver β₃-Koeffizient zeigt an, dass mehr Verkaufsfilialen mit einem Anstieg des Umsatzes verbunden sind. Zum Beispiel, wenn β₃ = 1.2, bedeutet das, dass für jede zusätzliche Verkaufsfiliale der Umsatz um 1.2 Tausend Einheiten steigt.

    c)

    Nach der Modellschätzung wurden die Residuen analysiert. Die Residuen zeigten keine klare Struktur im Streudiagramm gegen die vorhergesagten Werte, aber der Durbin-Watson-Test ergab einen Wert von 1.2. a) Was deutet dieser Durbin-Watson-Wert im Kontext dieses Modells an? b) Welche weiteren Diagnosemethoden könntest Du anwenden, um die Qualität des Modells zu überprüfen, und wie würden diese genutzt werden?

    Lösung:

    Analyse der Residuen und Modellvalidierung

    a) Interpretation des Durbin-Watson-Werts

    • Der Durbin-Watson-Test ist ein statistischer Test, der verwendet wird, um zu überprüfen, ob die Residuen (Fehlerterme) in einem Regressionsmodell voneinander unabhängig sind. Der Testwert liegt zwischen 0 und 4.
    • Ein Durbin-Watson-Wert von 2 deutet auf keine Autokorrelation hin.
    • Ein Wert nahe 0 weist auf eine positive Autokorrelation hin, während ein Wert nahe 4 auf eine negative Autokorrelation hinweist.
    • In diesem Fall ist der Durbin-Watson-Wert 1.2.
    • Ein Wert von 1.2 deutet darauf hin, dass eine leichte positive Autokorrelation der Residuen vorliegt. Dies bedeutet, dass aufeinanderfolgende Fehlerschätzungen eher in die gleiche Richtung tendieren.

    b) Weitere Diagnosemethoden zur Überprüfung der Modellqualität

    • Visualisierung der Residuen:
      • Ein Histogramm oder Q-Q-Plot der Residuen kann helfen, deren Verteilung zu überprüfen. Residuen sollten eine normale Verteilung aufweisen.
      • Ein Streudiagramm der Residuen gegen die vorhergesagten Werte sollte keine klare Struktur oder Muster zeigen, was auf Homoskedastizität und lineare Modellanpassung hinweist.
    • Multikollinearität:
      • Verwende den Variance Inflation Factor (VIF), um Multikollinearität zwischen den unabhängigen Variablen zu überprüfen. Hohe VIF-Werte (typisch > 10) deuten auf Multikollinearität hin.
    • Breusch-Pagan-Test:
      • Dieser Test hilft, Heteroskedastizität zu erkennen, die vorliegt, wenn die Varianz der Residuen nicht konstant ist. Ein signifikanter Testwert deutet auf Heteroskedastizität hin.
    • Cooks Distanz:
      • Cooks Distanz kann verwendet werden, um den Einfluss einzelner Beobachtungen auf die Gesamtanpassung des Modells zu identifizieren. Hohe Werte können auf mögliche Ausreißer hinweisen.
    • Shapiro-Wilk-Test:
      • Dieser Test untersucht die Normalverteilung der Residuen. Ein nicht signifikanter p-Wert bedeutet, dass die Residuen normalverteilt sind.
    • Erklärung der Varianz (R² und adj. R²):
      • Diese Metriken geben an, wie gut das Modell die Streuung der abhängigen Variable erklärt. Ein höherer Wert weist auf eine bessere Anpassung hin.

    Durch die Anwendung dieser statistischen Diagnosemethoden kann die Qualität des Modells gründlich überprüft und gegebenenfalls verbessert werden. Dies hilft, die Gültigkeit und Zuverlässigkeit der Prognosen, die aus dem Modell abgeleitet werden, sicherzustellen.

    Sign Up

    Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

    Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

    Kostenloses Konto erstellen

    Du hast bereits ein Konto? Anmelden