Introduction to Statistics and Statistical Programming - Exam.pdf

Introduction to Statistics and Statistical Programming - Exam
Introduction to Statistics and Statistical Programming - Exam Aufgabe 1) Ein Informatikstudent hat in einem Projekt zwei Datensätze vorliegen. Der erste Datensatz (A) enthält die Testresultate von 100 Studierenden, die einen Informatik-Eignungstest absolviert haben, während der zweite Datensatz (B) eine Stichprobe von 30 Testresultaten derselben Eignungstests von einer anderen Gruppe Studierender ...

© StudySmarter 2024, all rights reserved.

Introduction to Statistics and Statistical Programming - Exam

Aufgabe 1)

Ein Informatikstudent hat in einem Projekt zwei Datensätze vorliegen. Der erste Datensatz (A) enthält die Testresultate von 100 Studierenden, die einen Informatik-Eignungstest absolviert haben, während der zweite Datensatz (B) eine Stichprobe von 30 Testresultaten derselben Eignungstests von einer anderen Gruppe Studierender enthält. Der Student möchte die Datenanalyse durchführen um herauszufinden, ob der zweite Datensatz (B) ähnliche Ergebnisse wie der erste Datensatz (A) zeigt, und ob Schlussfolgerungen über die gesamte Studierendenpopulation gemacht werden können.

a)

a) Zu Beginn der Analyse möchtest Du die deskriptive Statistik beider Datensätze bestimmen. Berechne und bespreche die folgenden deskriptiven Maße sowohl für Datensatz A als auch für Datensatz B:

  • Mittelwert \((\bar{x})\)
  • Median
  • Modus
  • Standardabweichung \(\sigma\)

Welchen Nutzen haben diese deskriptiven Maße bei der Untersuchung der Eignungstestergebnisse?

Lösung:

a) Zu Beginn der Analyse möchtest Du die deskriptive Statistik beider Datensätze bestimmen. Berechne und bespreche die folgenden deskriptiven Maße sowohl für Datensatz A als auch für Datensatz B:

  • Mittelwert \((\bar{x})\)
  • Median
  • Modus
  • Standardabweichung \(\sigma\)

Welchen Nutzen haben diese deskriptiven Maße bei der Untersuchung der Eignungstestergebnisse?

Um diese Frage zu beantworten, wollen wir zunächst die einzelnen Maße erklären und ihre Bedeutung für die Datenanalyse darlegen:

  • Mittelwert \(\bar{x}\): Der Mittelwert oder Durchschnitt gibt den zentralen Wert der Daten an und wird berechnet, indem alle Testresultate addiert und durch die Anzahl der Testresultate geteilt werden. Er liefert einen guten Hinweis darauf, wie das allgemeine Leistungsniveau der Studierenden aussieht.
  • Median: Der Median ist der mittlere Wert der Daten, wenn diese der Größe nach geordnet sind. Der Median ist robust gegenüber Ausreißern und liefert ein besseres Bild der zentralen Tendenz, wenn die Daten asymmetrisch verteilt sind oder extreme Werte enthalten.
  • Modus: Der Modus ist der häufigste Wert in den Daten. Er zeigt, welcher Testscore am häufigsten erreicht wurde und kann nützlich sein, um zu erkennen, ob es einen Wert gibt, der besonders häufig vorkommt.
  • Standardabweichung \(\sigma\): Die Standardabweichung misst, wie stark die Werte vom Mittelwert abweichen. Eine niedrige Standardabweichung zeigt an, dass die meisten Werte nah am Mittelwert liegen, während eine hohe Standardabweichung auf eine große Streuung der Ergebnisse hinweist.

Indem Du diese Maße für beide Datensätze berechnest, kannst Du:

  • Vergleiche zwischen den beiden Gruppen anstellen: Welche Gruppe hat im Durchschnitt besser abgeschnitten? Ist die Streuung der Ergebnisse in beiden Gruppen ähnlich oder unterschiedlich?
  • Schlussfolgerungen über die gesamte Bevölkerung der Studierenden ziehen: Wenn die Maße für Datensatz B ähnlich zu denen von Datensatz A sind, kannst Du annehmen, dass die Testresultate in der kleineren Stichprobe repräsentativ für die größere Population sind.
  • Eventuelle Unterschiede identifizieren: Signifikante Unterschiede in den Maßen könnten darauf hinweisen, dass die beiden Gruppen unterschiedliche Eigenschaften haben oder unterschiedlichen Bedingungen ausgesetzt waren.

c)

c) Nach der Durchführung des t-Tests aus Teil b), möchtest Du nun ein 95%-Konfidenzintervall für den Mittelwert der Population basierend auf dem Datensatz B berechnen. Erkläre die Bedeutung des Konfidenzintervalls und berechne es anhand der gegebenen Daten.

Lösung:

c) Nach der Durchführung des t-Tests aus Teil b), möchtest Du nun ein 95%-Konfidenzintervall für den Mittelwert der Population basierend auf dem Datensatz B berechnen. Erkläre die Bedeutung des Konfidenzintervalls und berechne es anhand der gegebenen Daten.

Ein Konfidenzintervall gibt einen Bereich an, innerhalb dessen der wahre Populationsmittelwert mit einer bestimmten Wahrscheinlichkeit (hier 95%) liegt. Es wird genutzt, um eine Schätzung für den Populationsmittelwert zu geben und gleichzeitig die Unsicherheit dieser Schätzung anzugeben.

Um das 95%-Konfidenzintervall für den Mittelwert der Population basierend auf Datensatz B zu berechnen, nutzen wir die folgende Formel:

\[ \bar{x}_B \pm z* \frac{\sigma}{\sqrt{n_B}} \]

Hierbei sind:

  • \( \bar{x}_B \) der Mittelwert des Datensatzes B
  • \( z \) der kritische Wert für das 95%-Konfidenzintervall (für einen zweiseitigen Test liegt dieser Wert bei ca. 1,96)
  • \( \sigma \) die Standardabweichung (10)
  • \( n_B \) die Anzahl der Testresultate in Datensatz B (30)

Angenommen, der Mittelwert für Datensatz B ist:

  • \( \bar{x}_B = 72 \)

Setzen wir diese Werte in die Formel ein:

\[ 72 \pm 1.96* \frac{10}{\sqrt{30}} \]

Berechnen wir den Standardfehler:

\[ \frac{10}{\sqrt{30}} \approx 1.83 \]

Nun das Intervall:

\[ 72 \pm 1.96*1.83 \approx 72 \pm 3.59 \]

Daher liegt das 95%-Konfidenzintervall für den Mittelwert der Population basierend auf Datensatz B bei (68.41, 75.59).

Bedeutung des Konfidenzintervalls: Wir können mit 95%iger Sicherheit sagen, dass der wahre Mittelwert der Population innerhalb des Bereichs von 68.41 bis 75.59 liegt. Dies gibt uns eine Schätzung des Mittelwerts und berücksichtigt die Unsicherheit, die durch die Stichprobengröße und die Variation in den Daten verursacht wird.

Aufgabe 2)

Eine Softwareentwicklungsfirma hat die Gehälter ihrer 10 Softwareentwickler analysiert. Diese Gehälter (in Tausend Euro) sind wie folgt:

  • 50
  • 52
  • 50
  • 55
  • 70
  • 90
  • 50
  • 60
  • 55
  • 80

Basierend auf diesen Daten sollen statistische Analysen durchgeführt werden, um die zentrale Tendenz der Gehaltsverteilung zu bestimmen.

a)

Berechne den Mittelwert (\bar{x}) der Gehälter. Zeige alle Rechenschritte.

Lösung:

Um den Mittelwert (\bar{x}) der Gehälter zu berechnen, musst Du die folgenden Schritte durchführen:

  • Schritt 1: Zähle die Anzahl der Gehälter.
  • Schritt 2: Summiere alle Gehälter.
  • Schritt 3: Teile die Summe der Gehälter durch die Anzahl der Gehälter.

Hier sind die einzelnen Rechenschritte:

  • Schritt 1: Die Anzahl der Gehälter ist 10.
  • Schritt 2: Summiere die Gehälter: 50 + 52 + 50 + 55 + 70 + 90 + 50 + 60 + 55 + 80 = 612
  • Schritt 3: Teile die Summe durch die Anzahl der Gehälter: \[\bar{x} = \frac{612}{10} = 61,2\]

Der Mittelwert (\bar{x}) der Gehälter beträgt also 61,2 Tausend Euro.

b)

Bestimme den Median der Gehälter. Zeige alle Rechenschritte und erkläre, warum der Median in dieser Analyse sinnvoll sein kann.

Lösung:

Um den Median der Gehälter zu bestimmen, musst Du die folgenden Schritte durchführen:

  • Schritt 1: Sortiere die Gehälter der Größe nach.
  • Schritt 2: Bestimme die mittleren Werte. Der Median ist der Wert, der in der Mitte der Verteilung liegt.

Hier sind die einzelnen Rechenschritte:

  • Schritt 1: Sortiere die Gehälter: 50, 50, 50, 52, 55, 55, 60, 70, 80, 90
  • Schritt 2: Da es 10 Gehälter gibt (eine gerade Anzahl), nimm den Durchschnitt der beiden mittleren Werte: \(55\) und \(55\)Mittlerer Wert: \(\frac{55 + 55}{2} = 55\)

Der Median der Gehälter beträgt also 55 Tausend Euro. Erklärung: Der Median ist ein Maß der zentralen Tendenz, das den mittleren Wert einer geordneten Datenreihe darstellt. Er ist besonders nützlich, wenn die Verteilung der Daten asymmetrisch ist oder Ausreißer enthält. In diesem Beispiel bietet der Median einen robusten mittleren Wert der Gehälter, der nicht durch extrem hohe oder niedrige Werte verzerrt wird.

c)

Identifiziere den Modus der Gehälter. Erkläre, was der Modus über die Verteilung der Gehälter aussagt.

Lösung:

Um den Modus der Gehälter zu identifizieren, musst Du feststellen, welcher Wert in der Datenmenge am häufigsten vorkommt.

Hier sind die Gehälter erneut aufgeführt:

  • 50
  • 52
  • 50
  • 55
  • 70
  • 90
  • 50
  • 60
  • 55
  • 80

Um den Modus zu bestimmen, zählst Du die Häufigkeit jedes Wertes:

  • 50: 3 Mal
  • 52: 1 Mal
  • 55: 2 Mal
  • 60: 1 Mal
  • 70: 1 Mal
  • 80: 1 Mal
  • 90: 1 Mal

Der Wert, der am häufigsten vorkommt, ist 50.

Erklärung: Der Modus ist ein Maß der zentralen Tendenz, das den häufigsten Wert oder die häufigsten Werte in einem Datensatz identifiziert. In diesem Fall ist der Modus 50, was bedeutet, dass das Gehalt von 50 Tausend Euro am häufigsten vorkommt. Dies deutet darauf hin, dass eine signifikante Anzahl von Entwicklern in diesem Unternehmen ein relativ niedriges Gehalt im Vergleich zu anderen Mitarbeitern erhält.

Aufgabe 3)

Bedingte Wahrscheinlichkeit und UnabhängigkeitBedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis bereits eingetreten ist. Für zwei Ereignisse A und B gilt:

  • Bedingte Wahrscheinlichkeit: \(P(A|B) = \frac{P(A \cap B)}{P(B)}\) Voraussetzung: \(P(B) > 0\)
  • Zwei Ereignisse A und B sind unabhängig, wenn \(P(A \cap B) = P(A) \cdot P(B)\)
  • Alternativ: \(P(A|B) = P(A)\) und \(P(B|A) = P(B)\) suggerieren Unabhängigkeit
  • Unabhängigkeit von mehreren Ereignissen: Alle möglichen Paarungen müssen unabhängig sein

a)

Teilaufgabe 1: Gegeben sei ein Glücksrad, das in drei gleich große Sektoren aufgeteilt ist. Die Sektoren A, B und C haben jeweils die Wahrscheinlichkeiten zu \(P(A) = 0,3\), \(P(B) = 0,4\) und \(P(C) = 0,3\). Angenommen, das Glücksrad wird zweimal gedreht.

  • a) Berechne die bedingte Wahrscheinlichkeit, dass der erste Wurf auf A und der zweite Wurf auf B fällt, gegeben dass der erste Wurf auf A gefallen ist.
  • b) Sind die Ereignisse „Erster Wurf auf A“ und „Zweiter Wurf auf B“ unabhängig? Begründe Deine Antwort mathematisch.

Lösung:

Bedingte Wahrscheinlichkeit und UnabhängigkeitBedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis bereits eingetreten ist. Für zwei Ereignisse A und B gilt:

  • Bedingte Wahrscheinlichkeit: \(P(A|B) = \frac{P(A \cap B)}{P(B)}\) Voraussetzung: \(P(B) > 0\)
  • Zwei Ereignisse A und B sind unabhängig, wenn \(P(A \cap B) = P(A) \cdot P(B)\)
  • Alternativ: \(P(A|B) = P(A)\) und \(P(B|A) = P(B)\) suggerieren Unabhängigkeit
  • Unabhängigkeit von mehreren Ereignissen: Alle möglichen Paarungen müssen unabhängig sein
Teilaufgabe 1: Gegeben sei ein Glücksrad, das in drei gleich große Sektoren aufgeteilt ist. Die Sektoren A, B und C haben jeweils die Wahrscheinlichkeiten zu \(P(A) = 0,3\), \(P(B) = 0,4\) und \(P(C) = 0,3\). Angenommen, das Glücksrad wird zweimal gedreht.
  • a) Berechne die bedingte Wahrscheinlichkeit, dass der erste Wurf auf A und der zweite Wurf auf B fällt, gegeben dass der erste Wurf auf A gefallen ist.
  • b) Sind die Ereignisse „Erster Wurf auf A“ und „Zweiter Wurf auf B“ unabhängig? Begründe Deine Antwort mathematisch.
Lösung zu Teilaufgabe 1:
  • a) Berechnung der bedingten Wahrscheinlichkeit: Wir sollen die bedingte Wahrscheinlichkeit \(P(B|A)\) berechnen. Nach der Definition der bedingten Wahrscheinlichkeit haben wir: \[ P(B|A) = \frac{P(A \cap B)}{P(A)} \] Um \(P(A \cap B)\) zu berechnen, müssen wir die Wahrscheinlichkeit \(P(A)\) (dass der erste Wurf auf A fällt) mit \(P(B)\) (dass der zweite Wurf auf B fällt) multiplizieren, da die Ereignisse unabhängig voneinander sind: \[ P(A \cap B) = P(A) \cdot P(B) = 0,3 \cdot 0,4 = 0,12 \] Dann können wir \(P(B|A)\) berechnen: \[ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{0,12}{0,3} = 0,4 \] Ergebnis: Die bedingte Wahrscheinlichkeit, dass der erste Wurf auf A und der zweite Wurf auf B fällt, gegeben dass der erste Wurf auf A gefallen ist, beträgt 0,4.
  • b) Überprüfung der Unabhängigkeit: Zwei Ereignisse A und B sind unabhängig, wenn gilt: \[ P(A \cap B) = P(A) \cdot P(B) \] Bereits in Teil (a) haben wir gezeigt, dass: \[ P(A \cap B) = 0,3 \cdot 0,4 = 0,12 \] Die bedingte Wahrscheinlichkeit \(P(B|A)\) muss gleich \(P(B)\) sein, wenn die Ereignisse unabhängig sind. Wir haben \(P(B|A) = 0,4\) und \(P(B) = 0,4\), daher gilt: \[ P(B|A) = P(B) \] Da dies zutrifft, können wir sagen, dass die Ereignisse „Erster Wurf auf A“ und „Zweiter Wurf auf B“ unabhängig sind. Ergebnis: Die Ereignisse „Erster Wurf auf A“ und „Zweiter Wurf auf B“ sind unabhängig.

Aufgabe 4)

Ein Informatik-Unternehmen behauptet, dass die neue Algorithmus-Optimierung die durchschnittliche Laufzeit eines bestimmten Rechenprozesses reduziert. Ein Test wird durchgeführt, um die Behauptung zu überprüfen. Die Laufzeit der Prozesse ohne Optimierung (Populationsmittelwert \(\mu_0\) ) ist bekannt und beträgt 5 Sekunden. Eine Stichprobe von 30 Prozessen wird mit der neuen Optimierung gemessen, und die Durchschnittslaufzeit der Stichprobe beträgt 4,5 Sekunden mit einer Standardabweichung von 1,2 Sekunden. Die Signifikanzniveau ist \(\alpha = 0,05\).

a)

a) Formuliere die Nullhypothese (\( H_0 \)) und die Alternativhypothese (\( H_1 \)) für diesen Test.

Lösung:

Lösung zu Teilaufgabe a)

  • Nullhypothese (\( H_0 \)): Die neue Algorithmus-Optimierung reduziert die durchschnittliche Laufzeit des Rechenprozesses nicht. Das bedeutet, die durchschnittliche Laufzeit mit der neuen Optimierung ist nicht kleiner als die durchschnittliche Laufzeit ohne Optimierung. Formal: \( H_0: \mu \geq 5 \text{ Sekunden } \)
  • Alternativhypothese (\( H_1 \)): Die neue Algorithmus-Optimierung reduziert die durchschnittliche Laufzeit des Rechenprozesses. Das bedeutet, die durchschnittliche Laufzeit mit der neuen Optimierung ist kleiner als die durchschnittliche Laufzeit ohne Optimierung. Formal: \( H_1: \mu \lt 5 \text{ Sekunden } \)

b)

b) Berechne die Teststatistik und bestimme den p-Wert für diesen Hypothesentest. Verwende folgende Formel für die Teststatistik:

 'z = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}' 

wobei, \( \bar{x} \) der Durchschnitt der Stichprobe, \( \mu_0 \) der Populationsmittelwert, \( s \) die Standardabweichung der Stichprobe und \( n \) die Stichprobengröße ist.

Lösung:

Lösung zu Teilaufgabe b)

Um die Teststatistik zu berechnen, verwenden wir die gegebene Formel:

 z = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} 

Hier sind die gegebenen Werte:

  • \( \bar{x} = 4,5 \text{ Sekunden} \)
  • \( \mu_0 = 5 \text{ Sekunden} \)
  • \( s = 1,2 \text{ Sekunden} \)
  • \( n = 30 \)

Setzen wir diese Werte in die Formel ein, um die Teststatistik \( z \) zu berechnen:

  • \( z = \frac{4,5 - 5}{1,2 / \sqrt{30}} = \frac{-0,5}{1,2 / \sqrt{30}} \)
  • \( z = \frac{-0,5}{1,2 / 5,477} \)
  • \( z = \frac{-0,5}{0,219} \)
  • \( z \approx -2,28 \)

Nächstes bestimmen wir den p-Wert für den berechneten \( z \)-Wert:

  • Für einen einseitigen Test finden wir den p-Wert, indem wir den kumulativen Verteilungswert (CDF) der Standardnormalverteilung für \( z = -2,28 \) bestimmen.
  • Dieser Wert ist ungefähr 0,0113.

Für \( \alpha = 0,05 \) ist der p-Wert (0,0113) kleiner als das Signifikanzniveau.

Ergebnis: Wir verwerfen die Nullhypothese \( H_0 \). Die Daten liefern ausreichende Beweise dafür, dass die neue Algorithmus-Optimierung die durchschnittliche Laufzeit des Rechenprozesses reduziert.

c)

c) Nutze den berechneten p-Wert und vergleiche ihn mit dem Signifikanzniveau \( \alpha = 0,05 \) . Triff eine Entscheidung darüber, ob die Nullhypothese abgelehnt werden sollte oder nicht, und beschreibe, was das für die Behauptung des Unternehmens bedeutet.

Lösung:

Lösung zu Teilaufgabe c)

Fassen wir zuerst die relevanten Informationen zusammen:

  • Berechneter p-Wert: 0,0113
  • Signifikanzniveau: \( \alpha = 0,05 \)

Um zu entscheiden, ob die Nullhypothese (\( H_0 \)) abgelehnt werden soll, vergleichen wir den p-Wert mit dem Signifikanzniveau.

Vergleich:

  • p-Wert: 0,0113
  • Signifikanzniveau \( \alpha \): 0,05

Da der p-Wert (0,0113) kleiner ist als das Signifikanzniveau (0,05), verwerfen wir die Nullhypothese (\( H_0 \)).

Interpretation: Das bedeutet, dass die Daten ausreichend Beweise dafür liefern, dass die Optimierung die durchschnittliche Laufzeit des Rechenprozesses tatsächlich reduziert. Daher unterstützt die Analyse die Behauptung des Unternehmens, dass die neue Algorithmus-Optimierung effektiv ist.

Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden