Statistik - Exam.pdf

Statistik - Exam
Statistik - Exam Aufgabe 1) Ein Unternehmen hat die monatlichen Gehälter von 10 Mitarbeitern in Euro wie folgt erfasst: 2500, 2700, 3000, 2600, 2900, 2800, 3100, 2750, 2950 und 3200. Analysiere die Gehälterstruktur des Unternehmens unter Verwendung der zentralen Tendenzmaße. a) Berechne den Mittelwert der Gehälter der Mitarbeiter. Zeige dabei alle erforderlichen Schritte und Erklärungen. Lösung: U...

© StudySmarter 2024, all rights reserved.

Statistik - Exam

Aufgabe 1)

Ein Unternehmen hat die monatlichen Gehälter von 10 Mitarbeitern in Euro wie folgt erfasst: 2500, 2700, 3000, 2600, 2900, 2800, 3100, 2750, 2950 und 3200. Analysiere die Gehälterstruktur des Unternehmens unter Verwendung der zentralen Tendenzmaße.

a)

Berechne den Mittelwert der Gehälter der Mitarbeiter. Zeige dabei alle erforderlichen Schritte und Erklärungen.

Lösung:

Um den Mittelwert der Gehälter der Mitarbeiter zu berechnen, gehe wie folgt vor:

  • Schritt 1: Addiere alle Gehälter.
  • Die Gehälter in Euro sind: 2500, 2700, 3000, 2600, 2900, 2800, 3100, 2750, 2950 und 3200.

    Die Summe der Gehälter ergibt sich wie folgt:

    \[ 2500 + 2700 + 3000 + 2600 + 2900 + 2800 + 3100 + 2750 + 2950 + 3200 = 28500 \]

  • Schritt 2: Teile die Summe der Gehälter durch die Anzahl der Mitarbeiter.
  • Die Anzahl der Mitarbeiter ist 10.

    Somit ergibt sich der Mittelwert:

    \[ \text{Mittelwert} = \frac{28500}{10} \]

    \[ \text{Mittelwert} = 2850 \]

  • Ergebnis:
  • Der Mittelwert der Gehälter der Mitarbeiter beträgt 2850 Euro.

b)

Bestimme den Median der Gehälter und beschreibe den Vorgang detailliert.

Lösung:

Um den Median der Gehälter der Mitarbeiter zu bestimmen, folge diesen Schritten:

  • Schritt 1: Ordne die Gehälter in aufsteigender Reihenfolge.
  • Die aufsteigend geordneten Gehälter sind: 2500, 2600, 2700, 2750, 2800, 2900, 2950, 3000, 3100, 3200.

  • Schritt 2: Bestimme die mittlere Position.
  • Da die Anzahl der Gehälter 10 ist (eine gerade Zahl), ist der Median der Durchschnitt der beiden mittleren Werte.

  • Schritt 3: Identifiziere die beiden mittleren Werte.
  • Die beiden mittleren Werte sind die 5. und 6. Position in der geordneten Liste.

    Diese Werte sind 2800 und 2900.

  • Schritt 4: Berechne den Durchschnitt dieser beiden Werte.
  • Der Median ist der Durchschnitt von 2800 und 2900:

    \[ \text{Median} = \frac{2800 + 2900}{2} \]

    \[ \text{Median} = \frac{5700}{2} \]

    \[ \text{Median} = 2850 \]

  • Ergebnis:
  • Der Median der Gehälter der Mitarbeiter beträgt 2850 Euro.

c)

Identifiziere den Modus der Gehälter und erkläre, welche Bedeutung der Modus in diesem Kontext hat und ob der Modus ein geeignetes Maß für die Beschreibung der Gehälterstruktur dieses Unternehmens ist.

Lösung:

Um den Modus der Gehälter zu identifizieren, folge diesen Schritten:

  • Schritt 1: Untersuche die Häufigkeit der einzelnen Gehaltswerte.
  • Die Gehälter in Euro sind: 2500, 2700, 3000, 2600, 2900, 2800, 3100, 2750, 2950 und 3200.

    In diesem Datensatz kommt jeder Gehaltswert nur einmal vor.

  • Schritt 2: Bestimme den Modus.
  • Der Modus ist der Wert, der am häufigsten vorkommt. Da jeder Wert nur einmal vorkommt, gibt es in diesem Datensatz keinen eindeutigen Modus.

  • Ergebnis:
  • Es gibt keinen Modus in diesem Datensatz, da kein Gehaltswert häufiger als die anderen vorkommt. Das bedeutet, dass der Modus in diesem Fall kein aussagekräftiges Maß für die Beschreibung der Gehälterstruktur ist.

Der Modus ist normalerweise hilfreich, wenn es darum geht, den häufigsten Wert in einem Datensatz zu identifizieren. In diesem Kontext wäre der Modus sinnvoll, wenn bestimmte Gehaltsgruppen häufiger vorkommen würden als andere. Da dies hier nicht der Fall ist, ist der Modus kein geeignetes Maß zur Beschreibung der Gehälterstruktur dieses Unternehmens.

Aufgabe 3)

Einführung: Du hast Daten über die monatlichen Verkaufszahlen eines Unternehmens erhalten. Diese Daten wurden in einer Boxplot-Darstellung visualisiert, um die Verteilung der Verkaufszahlen besser zu verstehen. Die Quartile wurden berechnet und die Boxplot-Grafik zeigt den Median, den Interquartilsabstand (IQR), Whiskers und mögliche Ausreißer.Verwende die folgende Information für die Aufgaben: Quartile: Q1 = 200, Median (Q2) = 300, Q3 = 400, Whiskers bei 150 und 450, Ausreißer sind bei 100 und 500.

a)

Beschreibe die Eigenschaften einer Boxplot-Darstellung und erkläre, wie sie die Verteilung der monatlichen Verkaufszahlen des Unternehmens veranschaulicht. Verwende die gegebenen Quartile und Ausreißer in Deiner Erklärung.

Lösung:

Eigenschaften einer Boxplot-Darstellung:

Ein Boxplot, auch Box-and-Whisker-Diagramm genannt, ist eine grafische Darstellung, die die Verteilung eines Datensatzes zusammenfasst und statistische Kennwerte visualisiert. Hier sind die Hauptkomponenten eines Boxplots:

  • Box: Die Box reicht vom ersten Quartil (Q1) bis zum dritten Quartil (Q3). Sie repräsentiert den mittleren 50%-Bereich der Daten, auch bekannt als Interquartilsabstand (IQR).
  • Median (Q2): Eine Linie innerhalb der Box zeigt den Median (Q2) der Daten an, welcher den Datensatz in zwei gleichgroße Hälften teilt.
  • Whiskers: Die Whiskers (Antennen) erstrecken sich von den Enden der Box bis zu den kleinsten und größten Beobachtungen innerhalb von 1,5 IQRs von Q1 bzw. Q3. Werte außerhalb dieses Bereichs werden als potenzielle Ausreißer betrachtet.
  • Ausreißer: Werte, die außerhalb der Whiskers liegen, werden als Ausreißer markiert und sind oft mit Punkten oder kleinen Sternen gekennzeichnet.

Veranschaulichung der monatlichen Verkaufszahlen des Unternehmens:

Um die Verteilung der monatlichen Verkaufszahlen des Unternehmens besser zu verstehen, können wir die gegebenen Quartile und Ausreißer in der Boxplot-Darstellung verwenden:

  • Quartile: Die angegebenen Quartile sind Q1 = 200, Median (Q2) = 300 und Q3 = 400. Dies bedeutet, dass 50% der monatlichen Verkaufszahlen zwischen 200 und 400 liegen. Der Median von 300 zeigt an, dass die Hälfte der monatlichen Verkaufszahlen oberhalb und die andere Hälfte unterhalb dieses Wertes liegt.
  • Interquartilsabstand (IQR): Der IQR wird durch die Differenz zwischen Q3 und Q1 berechnet: \[ IQR = Q3 - Q1 = 400 - 200 = 200 \].
  • Whiskers: Die Whiskers erstrecken sich von 150 bis 450. Dies zeigt, dass die meisten Datenpunkte innerhalb dieses Bereichs liegen. Werte, die außerhalb dieses Bereichs liegen, werden als potenzielle Ausreißer betrachtet.
  • Ausreißer: Die gegebenen Ausreißer sind bei 100 und 500. Diese Werte liegen außerhalb der Whiskers und stellen ungewöhnlich niedrige oder hohe Verkaufszahlen dar, die signifikant von den anderen Datenpunkten abweichen.

Zusammenfassung: Der Boxplot stellt die Verteilung der monatlichen Verkaufszahlen des Unternehmens dar, indem er den mittleren 50%-Bereich der Daten (zwischen Q1 und Q3), den Median (Q2), die Whiskers (Verbreitung der Daten außerhalb der Box) und mögliche Ausreißer (Werte wie 100 und 500) zeigt. Diese visuelle Darstellung hilft uns, die Streuung, zentrale Tendenz und potenzielle Ausreißer in den Verkaufszahlen besser zu verstehen.

b)

Berechne den Interquartilsabstand (IQR) und erläutere, warum er ein nützliches Maß zur Erkennung von Ausreißern und der Datensymmetrie ist. Verwende dazu die gegebenen Quartile Q1 und Q3.

Lösung:

Interquartilsabstand (IQR) berechnen:

Der Interquartilsabstand (IQR) ist ein Maß für die Streuung der mittleren 50% eines Datensatzes und wird durch die Differenz zwischen dem dritten Quartil (Q3) und dem ersten Quartil (Q1) berechnet. Verwenden wir die gegebenen Quartile:

  • Q1 = 200
  • Q3 = 400

Der IQR wird wie folgt berechnet:

\[ IQR = Q3 - Q1 \]

\[ IQR = 400 - 200 \]

\[ IQR = 200 \]

Der Interquartilsabstand (IQR) beträgt also 200.

Warum der IQR ein nützliches Maß zur Erkennung von Ausreißern und zur Beurteilung der Datensymmetrie ist:

Der Interquartilsabstand (IQR) hat mehrere wichtige Anwendungen:

  • Erkennung von Ausreißern: Der IQR wird verwendet, um Ausreißer in einem Datensatz zu identifizieren. Werte, die unterhalb von \[ Q1 - 1{,}5 \times IQR \] oder oberhalb von \[ Q3 + 1{,}5 \times IQR \] liegen, werden als potenzielle Ausreißer betrachtet.Das bedeutet:
    • Ein Wert wird als unterer Ausreißer betrachtet, wenn er\[ \text{Unterer Ausreißer} < Q1 - 1{,}5 \times IQR \](\[ \text{Unterer Ausreißer} < 200 - 1{,}5 \times 200 \]\[ \text{Unterer Ausreißer} < 200 - 300 \]\[ \text{Unterer Ausreißer} < -100 \]).
    • Ein Wert wird als oberer Ausreißer betrachtet, wenn er\[ \text{Oberer Ausreißer} > Q3 + 1{,}5 \times IQR \](\[ \text{Oberer Ausreißer} > 400 + 1{,}5 \times 200 \]\[ \text{Oberer Ausreißer} > 400 + 300 \]\[ \text{Oberer Ausreißer} > 700 \]).
  • Symmetrie der Verteilung: Der IQR kann verwendet werden, um die Symmetrie oder Asymmetrie der Verteilung zu bewerten. Wenn der IQR symmetrisch um den Median verteilt ist (d.h. Q2 genau in der Mitte des IQR liegt), ist die Verteilung wahrscheinlich symmetrisch. In unserem Fall zeigt der Median Q2 = 300, dass die mittleren 50% der Daten gleichmäßig um den Median verteilt sind, was auf eine symmetrische Verteilung hindeutet.

Zusammenfassend ist der Interquartilsabstand (IQR) ein nützliches Maß, um die Streuung der mittleren 50% der Daten zu verstehen, potentielle Ausreißer zu identifizieren und die Symmetrie der Datensätze zu beurteilen. Die Anwendung auf die gegebenen Verkaufszahlen zeigt, dass der IQR 200 beträgt und hilft uns, die Ausreißer bei 100 und 500 zu erkennen und zu bestätigen, dass die Daten relativ symmetrisch um den Median von 300 verteilt sind.

c)

Mit den Whiskers bei 150 und 450, und Ausreißern bei 100 und 500, überprüfe, ob die angegebenen Whisker-Werte korrekt sind, basierend auf der Regel, dass die Whiskers 1.5 \times IQR darstellen. Berechne die theoretischen Whisker-Grenzen und vergleiche sie mit den gegebenen Werten.

Lösung:

Überprüfung der Whisker-Werte basierend auf der 1,5 \times IQR-Regel:

Zuerst berechnen wir den Interquartilsabstand (IQR) mit den gegebenen Quartilen Q1 und Q3:

  • Q1 = 200
  • Q3 = 400

Der IQR wird wie folgt berechnet:

\[ IQR = Q3 - Q1 \]

\[ IQR = 400 - 200 \]

\[ IQR = 200 \]

Nun berechnen wir die theoretischen Whisker-Grenzen, die 1,5-mal den IQR von den Quartilen entfernt sind:

Unterer Whisker:

\[ \text{Unterer Whisker} = Q1 - 1{,}5 \times IQR \]

\[ \text{Unterer Whisker} = 200 - 1{,}5 \times 200 \]

\[ \text{Unterer Whisker} = 200 - 300 \]

\[ \text{Unterer Whisker} = -100 \]

Oberer Whisker:

\[ \text{Oberer Whisker} = Q3 + 1{,}5 \times IQR \]

\[ \text{Oberer Whisker} = 400 + 1{,}5 \times 200 \]

\[ \text{Oberer Whisker} = 400 + 300 \]

\[ \text{Oberer Whisker} = 700 \]

Basierend auf der 1,5 \times IQR-Regel sind die theoretischen Whisker-Grenzen -100 und 700.

Vergleich mit den gegebenen Whisker-Werten:

  • Gegebene Whisker-Werte: 150 (unterer Whisker) und 450 (oberer Whisker).
  • Theoretische Whisker-Grenzen gemäß 1,5 \times IQR-Regel: -100 (unterer Whisker) und 700 (oberer Whisker).

Die gegebenen Whisker-Werte 150 und 450 liegen innerhalb der theoretischen Grenzen, aber sie sind enger als die theoretischen Werte gemäß der 1,5 \times IQR-Regel, was darauf hinweist, dass die tatsächlichen Whisker in diesem Boxplot möglicherweise restriktiver gesetzt wurden als die strikte 1,5 \times IQR-Regel vorschlägt.

Dies kann absichtlich geschehen sein, um die Boxplot-Grafik besser lesbar oder übersichtlicher zu machen, oder als zusätzliche Maßnahme um nur die extremsten Werte als Ausreißer zu kennzeichnen. Die angegebenen Whisker-Werte sind daher korrekt, aber sie repräsentieren eine konservativere Definition von Whisker-Grenzen als die streng nach der 1,5 \times IQR-Regel berechneten Grenzen.

Aufgabe 4)

In einer Studie werden die Stunden, die Schüler wöchentlich für Mathematik lernen (Variable X), und ihre Mathematiknoten (Variable Y) in einer Abschlussprüfung erfasst. Du wirst gebeten, die Beziehung zwischen dem Lernaufwand und den Noten zu analysieren, indem Du Kovarianz und Korrelation berechnest.

a)

Berechne die Kovarianz zwischen der wöchentlichen Lernzeit (X) und den Noten (Y), wenn die folgenden Daten gegeben sind:

  • (2 Stunden, Note 3,0)
  • (3 Stunden, Note 2,0)
  • (4 Stunden, Note 1,7)
  • (5 Stunden, Note 1,3)
Gib die Formel an und berechne den exakten Wert der Kovarianz.

Lösung:

Um die Kovarianz zwischen der wöchentlichen Lernzeit (X) und den Noten (Y) zu berechnen, verwenden wir folgende Formel:

Formel der Kovarianz:

Die Kovarianz von zwei Zufallsvariablen X und Y wird wie folgt berechnet:

\[Cov(X, Y) = \frac{1}{n} \sum_{i=1}^{n} \left( X_i - \bar{X} \right)\left( Y_i - \bar{Y} \right)\]

Hierbei ist:

  • \( n \): Anzahl der Paare
  • \( X_i \): Die Lernzeit des i-ten Schülers
  • \( Y_i \): Die Note des i-ten Schülers
  • \( \bar{X} \): Der Mittelwert der Lernzeiten
  • \( \bar{Y} \): Der Mittelwert der Noten

Um die Kovarianz zu berechnen, müssen wir zuerst die Mittelwerte \( \bar{X} \) und \( \bar{Y} \) bestimmen:

Daten:

  • (2 Stunden, Note 3,0)
  • (3 Stunden, Note 2,0)
  • (4 Stunden, Note 1,7)
  • (5 Stunden, Note 1,3)

Berechnung der Mittelwerte:

\[\bar{X} = \frac{1}{4} \left( 2 + 3 + 4 + 5 \right) = \frac{14}{4} = 3,5\]

\[\bar{Y} = \frac{1}{4} \left( 3,0 + 2,0 + 1,7 + 1,3 \right) = \frac{8,0}{4} = 2,0\]

Berechnung der Kovarianz:

\[Cov(X, Y) = \frac{1}{4} \left( (2 - 3,5)(3,0 - 2,0) + (3 - 3,5)(2,0 - 2,0) + (4 - 3,5)(1,7 - 2,0) + (5 - 3,5)(1,3 - 2,0) \right)\]

\[Cov(X, Y) = \frac{1}{4} \left( (-1,5)(1,0) + (-0,5)(0,0) + (0,5)(-0,3) + (1,5)(-0,7) \right)\]

\[Cov(X, Y) = \frac{1}{4} \left( -1,5 + 0 - 0,15 - 1,05 \right)\]

\[Cov(X, Y) = \frac{1}{4} \left( -2,7 \right) = -0,675\]

Die Kovarianz zwischen der wöchentlichen Lernzeit und den Noten beträgt also \( -0,675 \).

b)

Berechne die Korrelation zwischen der wöchentlichen Lernzeit (X) und den Noten (Y). Verwende dabei den vorherigen Kovarianzwert sowie die Standardabweichung der Variablen X und Y. Die Daten:

  • Varianz von X: 1,67
  • Varianz von Y: 0,505
Gib die Formel für die Korrelation an und berechne den exakten Wert.

Lösung:

Um die Korrelation zwischen der wöchentlichen Lernzeit (X) und den Noten (Y) zu berechnen, verwenden wir die Kovarianz und die Standardabweichungen der beiden Variablen. Die Formel für die Korrelation ist:

Formel der Korrelation:

Die Korrelation von zwei Zufallsvariablen X und Y wird wie folgt berechnet:

\[r_{XY} = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}\]

Hierbei ist:

  • \( r_{XY} \): Korrelation zwischen X und Y
  • \( Cov(X, Y) \): Kovarianz zwischen X und Y
  • \( \sigma_X \): Standardabweichung von X
  • \( \sigma_Y \): Standardabweichung von Y

Wir haben bereits die Kovarianz zwischen X und Y als \( -0,675 \) berechnet und die Varianzen von X und Y gegeben:

  • Varianz von X: 1,67
  • Varianz von Y: 0,505

Berechnung der Standardabweichungen:

Die Standardabweichung ist die Quadratwurzel der Varianz:

\[\sigma_X = \sqrt{1,67} \approx 1,29\]

\[\sigma_Y = \sqrt{0,505} \approx 0,711\]

Berechnung der Korrelation:

\[r_{XY} = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}\]

\[r_{XY} = \frac{-0,675}{1,29 \cdot 0,711} \approx -0,74\]

Die Korrelation zwischen der wöchentlichen Lernzeit und den Noten beträgt also ungefähr \( -0,74 \).

c)

Interpretiere die Ergebnisse der berechneten Kovarianz und Korrelation. Erkläre, was diese Ergebnisse über die Beziehung zwischen der Lernzeit und den Noten der Schüler aussagen. Ändert sich Deine Interpretation, wenn die Korrelation 0 anstelle des berechneten Wertes wäre? Begründe Deine Antwort.

Lösung:

Interpretation der Ergebnisse

Die berechnete Kovarianz und Korrelation geben uns Aufschluss über die Beziehung zwischen der wöchentlichen Lernzeit (X) und den Noten (Y) der Schüler.

  • Kovarianz: Die Kovarianz beträgt \(-0,675\). Eine negative Kovarianz deutet darauf hin, dass es eine umgekehrte Beziehung zwischen der wöchentlichen Lernzeit und den Noten gibt. Das bedeutet, dass Schüler, die mehr Zeit mit Lernen verbringen, tendenziell bessere Noten erhalten, da geringere Notenwertungen (alte Notenskala) bessere Leistungen widerspiegeln.
  • Korrelation: Die Korrelation beträgt \(-0,74\). Diese Korrelation ist negativ und relativ stark. Dies bedeutet, dass es eine starke negative Beziehung zwischen der Lernzeit und den Noten gibt. Je mehr Zeit die Schüler mit Mathematik lernen, desto besser sind tendenziell ihre Noten.

Was würde geschehen, wenn die Korrelation 0 wäre?

Wenn die Korrelation 0 wäre, würde dies bedeuten, dass es keinen linearen Zusammenhang zwischen der wöchentlichen Lernzeit und den Noten der Schüler gibt. Das heißt, die Lernzeit hätte keinen Einfluss auf die Noten, und andere Faktoren könnten eine signifikante Rolle spielen.

Begründung: Die Korrelation misst die Stärke und Richtung einer linearen Beziehung zwischen zwei Variablen. Eine Korrelation von 0 zeigt, dass es keine lineare Beziehung gibt, aber es könnte dennoch eine nicht-lineare Beziehung oder andere Faktoren geben, die die Noten beeinflussen.

Zusammengefasst zeigt die negative und relativ starke Korrelation \(-0,74\), dass die Lernzeit eine wichtige Rolle bei der Verbesserung der Noten spielt. Wenn die Korrelation jedoch 0 wäre, würde dies anzeigen, dass die Lernzeit keinen messbaren Einfluss auf die Noten hat, was auf andere beeinflussende Faktoren hinweisen könnte.

Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden