Emperical Research methods - Exam
Aufgabe 1)
Stelle dir vor, du bist verantwortlich für eine empirische Studie, die das Kaufverhalten von Konsumenten in Bezug auf nachhaltige Produkte untersucht. Du möchtest herausfinden, ob es einen signifikanten Unterschied im Kaufverhalten zwischen verschiedenen Altersgruppen gibt.
a)
Beschreibe den Prozess zur Erhebung der Daten für deine Studie. Gehe dabei auf die Art der Daten (Primär- oder Sekundärdaten) und die Methode der Datensammlung (qualitativ oder quantitativ) ein. Begründe deine Wahl.
Lösung:
Um eine empirische Studie zum Kaufverhalten von Konsumenten in Bezug auf nachhaltige Produkte durchzuführen, ist es wichtig, sorgsam den Prozess zur Datenerhebung zu planen. Dabei sollten sowohl die Art der Daten (Primär- oder Sekundärdaten) als auch die Methode der Datensammlung (qualitativ oder quantitativ) berücksichtigt werden.
- Art der Daten: Für diese Studie sind Primärdaten am geeignetsten. Primärdaten sind Daten, die speziell für den Zweck der Untersuchung neu erhoben werden. Sie bieten den Vorteil, dass sie genau auf die Forschungsfrage abgestimmt werden können. Sekundärdaten, also bereits vorhandene Daten, könnten veraltet oder nicht spezifisch genug sein, um die gewünschten Unterschiede im Kaufverhalten zwischen verschiedenen Altersgruppen zu analysieren.
- Methode der Datensammlung: Hier ist eine quantitative Methode ratsam. Die quantitative Forschung hat den Vorteil, dass sie objektive Erkenntnisse liefert, die numerisch ausgewertet und statistisch analysiert werden können. Das Ziel ist es, signifikante Unterschiede im Kaufverhalten zu erkennen, und dafür ist eine große Stichprobe notwendig, die durch quantitative Methoden effizienter gesammelt werden kann.
Begründung der Wahl: Eine quantitative Datensammlung ermöglicht es, Daten von einer großen Anzahl an Teilnehmern zu erfassen, was die Generalisierbarkeit der Ergebnisse erhöht. Typische Methoden zur Sammlung quantitativer Primärdaten sind Online-Umfragen oder Fragebögen. Diese können schnell verteilt und ausgefüllt werden und sind somit kosteneffizient. Ein Fragebogen könnte beispielsweise Fragen enthalten wie „Wie häufig kaufen Sie nachhaltige Produkte?“ und „Wie viel Prozent Ihrer monatlichen Ausgaben geben Sie für nachhaltige Produkte aus?“ Diese Daten können dann nach Altersgruppen segmentiert und statistisch getestet werden, um Unterschiede im Kaufverhalten zu identifizieren.
b)
Definiere die möglichen Variablen in deiner Studie. Identifiziere unabhängige, abhängige und intervenierende Variablen und erkläre, warum sie in diese Kategorien fallen.
Lösung:
Um eine empirische Studie zum Kaufverhalten von Konsumenten in Bezug auf nachhaltige Produkte durchzuführen und dabei zu untersuchen, ob es signifikante Unterschiede im Kaufverhalten zwischen verschiedenen Altersgruppen gibt, ist es wichtig, die möglichen Variablen klar zu definieren. Diese Variablen werden in unabhängige, abhängige und intervenierende Variablen unterteilt.
- Unabhängige Variable: Dies ist die Variable, die manipuliert oder kategorisiert wird, um ihren Einfluss auf die abhängige Variable zu untersuchen. In unserer Studie wäre die unabhängige Variable die Altersgruppe. Die Altersgruppen könnten beispielsweise in Kategorien wie 18-29 Jahre, 30-44 Jahre, 45-59 Jahre und 60+ Jahre eingeteilt werden. Diese Variable fällt in diese Kategorie, da wir untersuchen wollen, wie das Alter der Konsumenten das Kaufverhalten beeinflusst.
- Abhängige Variable: Dies ist die Variable, die gemessen wird, um den Einfluss der unabhängigen Variable zu bestimmen. In unserer Studie ist die abhängige Variable das Kaufverhalten in Bezug auf nachhaltige Produkte. Das kann gemessen werden durch verschiedene Indikatoren wie die Häufigkeit des Kaufs, den Anteil der Ausgaben für nachhaltige Produkte oder die Anzahl der gekauften nachhaltigen Produkte. Diese Variable ist abhängig, da wir untersuchen wollen, wie sie durch die Altersgruppen verändert wird.
- Intervenierende Variablen: Intervenierende Variablen, auch Mediatorvariablen genannt, sind solche, die den Zusammenhang zwischen der unabhängigen und der abhängigen Variable beeinflussen können. In unserer Studie könnten das Bildungsniveau, das Einkommen, und die Umwelteinstellung der Konsumenten solche intervenierenden Variablen sein. Sie fallen in diese Kategorie, weil sie möglicherweise einen Einfluss darauf haben, wie stark das Alter das Kaufverhalten in Bezug auf nachhaltige Produkte beeinflusst. Beispielsweise könnte ein höheres Bildungsniveau oder Einkommen zu einem stärkeren Interesse an nachhaltigen Produkten führen, unabhängig vom Alter.
Zusammenfassend: Die unabhängige Variable ist die Altersgruppe, die abhängige Variable ist das Kaufverhalten in Bezug auf nachhaltige Produkte, und intervenierende Variablen könnten das Bildungsniveau, das Einkommen und die Umwelteinstellung sein. Diese sorgfältige Definition der Variablen hilft, die Untersuchung klar zu strukturieren und mögliche Einflüsse und Wechselwirkungen zu verstehen.
c)
Angenommen, du verwendest eine Zufallsstichprobe. Erkläre, wie du sicherstellen würdest, dass deine Stichprobe repräsentativ für die Gesamtbevölkerung ist. Diskutiere mögliche Herausforderungen und wie du diesen begegnen würdest.
Lösung:
Um eine empirische Studie zu gestalten, die das Kaufverhalten von Konsumenten in Bezug auf nachhaltige Produkte untersucht und Unterschiede zwischen verschiedenen Altersgruppen herausfindet, ist es essenziell, eine repräsentative Zufallsstichprobe zu wählen. Dies stellt sicher, dass die Ergebnisse auf die gesamte Bevölkerung generalisierbar sind.
- Methode zur Sicherstellung der Repräsentativität:
- Zufallsstichprobe: Eine Zufallsstichprobe bedeutet, dass jeder in der Grundgesamtheit dieselbe Chance hat, ausgewählt zu werden. Dies kann durch einfache Zufallsauswahl oder durch die Verwendung von Zufallszahlengeneratoren geschehen.
- Schichtung: Um sicherzustellen, dass alle relevanten Altersgruppen angemessen vertreten sind, könnten wir eine geschichtete Zufallsstichprobe verwenden. Dazu unterteilen wir die Grundgesamtheit in verschiedene Altersgruppen und ziehen aus jeder Gruppe eine Zufallsauswahl. Dies garantiert, dass jede Altersgruppe proportional zur Population repräsentiert ist.
- Gewichtung: Falls unterschiedliche Altersgruppen unterschiedlich stark in der Stichprobe vertreten sind, können wir Gewichtungsfaktoren verwenden, um diese Disparitäten bei der Analyse auszugleichen.
- Mögliche Herausforderungen und Lösungen:
- Response Bias: Eine Herausforderung ist die Verzerrung durch nicht antwortende Personen. Um dem zu begegnen, könnten Anreize für die Teilnahme geschaffen werden, wie z.B. Gutscheine oder Gewinnspiele.
- Unerreichbare Teilnehmer: Manche Personen könnten schwer zu erreichen sein (z.B. ältere Menschen ohne Internetzugang). Hier könnte eine Mischung aus Online- und Offline-Befragungen helfen, wie z.B. telefonische Umfragen oder persönliche Interviews.
- Selbstselektion: Es besteht die Gefahr, dass sich nur bestimmte Personen für die Teilnahme zur Verfügung stellen, was zu einer Verzerrung führen könnte. Um dies zu minimieren, muss die Einladung zur Teilnahme zur Studie breit gestreut und in verschiedenen Medien bekannt gemacht werden.
- Demografische Ungleichheiten: Unterschiede in der Verfügbarkeit und Erreichbarkeit verschiedener Altersgruppen können durch gezielte Überziehungsstrategien etwa durch das Überrekrutieren schwer erreichbarer Altersgruppen oder durch den Einsatz von Aufsuchungssystemen wie mobile Interviewteams adressiert werden.
Zusammenfassend: Durch die Verwendung einer geschichteten Zufallsstichprobe, Gewichtung der Daten und Maßnahmen zur Minimierung von Bias und Teilnahmeverzerrungen kann sichergestellt werden, dass die Stichprobe repräsentativ für die Gesamtbevölkerung ist. Dies erzeugt verlässliche und generalisierbare Ergebnisse, die die Unterschiede im Kaufverhalten zwischen den Altersgruppen akkurat widerspiegeln.
Aufgabe 2)
Stell Dir vor, Du bist ein Forscher, der beauftragt wurde, die Ursachen und Auswirkungen des digitalen Arbeitens auf das Arbeitsumfeld in einem großen Unternehmen zu untersuchen. Du hast die Methoden der qualitativen und quantitativen Forschung zur Auswahl. Basierend auf den gegebenen Informationen über die Unterschiede zwischen qualitativer und quantitativer Forschung:
a)
Teil A: Welche Methode (qualitativ oder quantitativ) würdest Du wählen, um tiefgehende Einblicke in die Erfahrungen einzelner Mitarbeiter mit der digitalen Arbeit zu gewinnen? Begründe Deine Entscheidung mit mindestens drei Argumenten, die sich auf die Merkmale der qualitativen Forschung beziehen.
Lösung:
Teil A: Um tiefgehende Einblicke in die Erfahrungen einzelner Mitarbeiter mit der digitalen Arbeit zu gewinnen, würde ich die qualitative Methode wählen. Diese Entscheidung basiert auf den folgenden drei Argumenten:
- Detailtiefe und Kontext: Die qualitative Forschung erlaubt eine intensive Auseinandersetzung mit den individuellen Erlebnissen und Ansichten der Mitarbeiter. Durch Interviews oder Fokusgruppen können tiefergehende Einblicke in persönliche Meinungen, Gefühle und Verhaltensweisen erlangt werden, was bei der quantitativen Forschung, die auf standardisierte Fragebögen setzt, nicht in gleichem Maße möglich ist.
- Flexibilität: Qualitative Methoden sind flexibler und anpassungsfähiger als quantitative Methoden. Während eines qualitativen Interviews kann der Forscher spontan auf interessante oder unerwartete Antworten der Teilnehmer eingehen und diese weiter vertiefen. Diese Anpassungsfähigkeit erlaubt eine umfassendere Erfassung der komplexen Realität der digitalen Arbeitserfahrungen.
- Verständnis von komplexen Phänomenen: Digitale Arbeit umfasst eine Vielzahl von Dimensionen (technologische, soziale, organisatorische), die qualitativ untersucht werden können. Qualitative Methoden helfen dabei, ein holistisches Bild zu zeichnen, indem sie die Wechselwirkungen und das Zusammenspiel dieser Dimensionen aufzeigen.
b)
Teil B: Angenommen, Du möchtest die Auswirkungen der digitalen Arbeit auf die Produktivität der Mitarbeiter quantitativ messen. Entwirf einen Forschungsplan, der folgende Elemente beinhaltet:
- Die Hypothese, die Du testen möchtest.
- Die Methode der Datenerhebung (z. B. Umfrage, Experiment).
- Eine Beschreibung der statistischen Analyse, die Du verwenden würdest, um die Daten zu interpretieren. Stelle sicher, dass Du die spezifischen statistischen Tests nennst und erklärst, wie sie angewendet werden.
Lösung:
Teil B: Um die Auswirkungen der digitalen Arbeit auf die Produktivität der Mitarbeiter quantitativ zu messen, würde ich den folgenden Forschungsplan entwerfen:
- Hypothese: Die digitale Arbeit erhöht die Produktivität der Mitarbeiter im Vergleich zu traditionellen Arbeitsmethoden.
- Methode der Datenerhebung: Ich würde eine Umfrage in Form eines standardisierten Fragebogens unter den Mitarbeitern des Unternehmens durchführen. Die Fragen würden sich auf Messgrößen zur Produktivität beziehen, wie z.B. die Anzahl der erledigten Aufgaben, die Zeit für die Erledigung von Aufgaben, und das Maß an erfüllten Zielvorgaben. Zusätzlich würde ich die Daten zur Arbeitsweise (digital oder traditionell) der Mitarbeiter sammeln.
- Statistische Analyse: Zur Analyse der erhobenen Daten würde ich die folgenden statistischen Verfahren und Tests verwenden:
- Deskriptive Statistik: Um die Grundverteilung und die zentralen Tendenzen der Variablen (z.B. Mittelwert, Median, Standardabweichung) zu ermitteln.
- t-Test für unabhängige Stichproben: Dieser Test würde verwendet werden, um den Unterschied in der Produktivität zwischen Mitarbeitern, die digital arbeiten, und denen, die traditionell arbeiten, zu bewerten. Der t-Test hilft zu bestimmen, ob der Unterschied in den Mittelwerten der beiden Gruppen statistisch signifikant ist.
- Multiple Regression: Um zu analysieren, wie verschiedene Faktoren (z.B. digitale Arbeitsweise, Alter, Geschlecht, Abteilung) die Produktivität beeinflussen, würde ich eine multiple Regressionsanalyse durchführen. Diese Methode erlaubt es, den Einfluss mehrerer unabhängiger Variablen auf eine abhängige Variable (in diesem Fall die Produktivität) gleichzeitig zu untersuchen.
Aufgabe 3)
Du hast einen Datensatz mit dem Namen Studienergebnisse, der die Noten, Studienfächer und die Anzahl der Studienstunden pro Woche von 200 Studierenden enthält. Ziel der Analyse ist es, die Verteilung der Noten zu beschreiben, die Beziehung zwischen Studienfächern und Noten zu untersuchen und ein Modell zu entwickeln, um die Noten basierend auf der Anzahl der Studienstunden vorherzusagen.
Verwende SPSS und R zur Analyse und besprich die Vorteile und Nachteile beider Programme.
a)
1. Beschreibe die Verteilung der Noten der Studierenden mit den vorhandenen Daten. Nutze dazu sowohl SPSS als auch R.
- SPSS: Verwende die Funktion
desc var;
, um eine deskriptive Statistik der Noten zu erhalten. Zeige die notwendigen Schritte und Ergebnisse auf. - R: Verwende die Funktion
summary(df$Noten)
und visualisiere die Verteilung der Noten mit dem Paket ggplot2
. Schreibe den dazugehörigen R-Code und diskutiere die Ergebnisse.
Lösung:
Um die Verteilung der Noten der Studierenden zu beschreiben, können wir sowohl SPSS als auch R verwenden. Hier sind die Schritte und Ergebnisse für beide Softwareprogramme:
- SPSS:
- Öffne den Datensatz Studienergebnisse in SPSS.
- Drücke auf Analysieren in der oberen Menüleiste.
- Wähle Deskriptive Statistik > Häufigkeiten.
- Wähle die Variable
Noten
aus und verschiebe sie in das Feld Variablen. - Drücke auf Deskriptive Statistik und aktiviere die Optionen
Mittelwert
, Median
, Standardabweichung
und Minimum/Maximum
. - Drücke OK, um die Analyse durchzuführen.
Die Ausgabe zeigt deskriptive Statistiken wie Mittelwert, Median, Standardabweichung sowie Minimum und Maximum der Noten.
- R:
Wir können deskriptive Statistiken und eine Visualisierung der Notenverteilung erstellen, indem wir den folgenden R-Code verwenden:
- Deskriptive Statistik:
summary(df$Noten)
- Visualisierung mit
ggplot2
: library(ggplot2) ggplot(df, aes(x=Noten)) + geom_histogram(binwidth=1, fill='blue', color='black', alpha=0.7) + labs(title='Verteilung der Noten', x='Noten', y='Häufigkeit')
Der obige R-Code führt zuerst eine Zusammenfassung der Noten-Spalte in Deinem Datensatz aus und gibt Werte wie Minimum, 1. Quartil, Median, Mittelwert, 3. Quartil und Maximum zurück. Anschließend erstellt der R-Code ein Histogramm zur Visualisierung der Notenverteilung.
Hier sind einige Diskussionen zu den Ergebnissen:
- Mittelwert und Median: Diese beiden Maße helfen uns zu verstehen, wo der zentrale Punkt der Daten liegt. Wenn sich Mittelwert und Median stark unterscheiden, könnte dies auf eine asymmetrische Verteilung hindeuten.
- Standardabweichung: Dies zeigt, wie stark die Noten um den Mittelwert streuen. Eine niedrige Standardabweichung bedeutet, dass die Noten näher am Mittelwert liegen, während eine hohe Standardabweichung auf eine größere Streuung hinweist.
- Histogramm: Das Histogramm bietet eine visuelle Darstellung der Verteilung. Es kann uns helfen, Muster oder Ausreißer in den Daten leicht zu erkennen.
Nun zu den Vorteilen und Nachteilen der beiden Programme:
- SPSS:
- Vorteile: Benutzerfreundliche Oberfläche, einfache Durchführung von Analysen, gut geeignet für Anwender mit weniger Programmiererfahrung.
- Nachteile: Eingeschränkte Anpassungsfähigkeit und Flexibilität im Vergleich zu R, weniger geeignet für umfangreiche Datenmanipulationen und fortgeschrittene Analysen.
- R:
- Vorteile: Sehr flexibel und anpassungsfähig, umfangreiche Bibliotheken für verschiedene statistische Analysen und Datenvisualisierungen, gut geeignet für große, komplexe Datensätze und fortgeschrittene Analysen.
- Nachteile: Steilere Lernkurve, insbesondere für Benutzer ohne Programmiererfahrung, manchmal langsamer bei der Berechnung sehr großer Datensätze im Vergleich zu spezialisierten Programmen.
b)
2. Entwickle ein multiples lineares Regressionsmodell, um die Noten der Studierenden basierend auf der Anzahl der Studienstunden und dem Studienfach vorherzusagen. Zeige die notwendigen Schritte und Ergebnisse sowohl in SPSS als auch in R.
- SPSS: Schreibe die SPSS-Syntax für die Durchführung der Regression und erkläre die Outputs, insbesondere die Relevanz der Koeffizienten und des R-Quadrats.
- R: Schreibe den R-Code, der das Modell erstellt und die Ergebnisse zusammenfasst. Verwende die Funktionen
lm()
und summary()
in R. Diskutiere die Relevanz der Koeffizienten und des R-Quadrats.
Lösung:
Um ein multiples lineares Regressionsmodell zu entwickeln, das die Noten der Studierenden basierend auf der Anzahl der Studienstunden und dem Studienfach vorhersagt, können wir sowohl SPSS als auch R verwenden. Hier sind die Schritte und Ergebnisse für beide Softwareprogramme:
- SPSS:
- Öffne den Datensatz Studienergebnisse in SPSS.
- Drücke auf Analysieren in der oberen Menüleiste.
- Wähle Regression > Linear....
- Wähle die Variable
Noten
als abhängige Variable (Dependent). - Wähle die Variablen
Studienstunden
und Studienfach
als unabhängige Variablen (Independent). - Drücke auf OK, um die Analyse durchzuführen.
Die SPSS-Ausgabe umfasst mehrere wichtige Teile:
- Koeffizienten-Tabelle: Zeigt die Regressionskoeffizienten, Standardfehler, t-Werte und p-Werte für jede unabhängige Variable.
- R-Quadrat: Zeigt den Anteil der Varianz der abhängigen Variable (Noten), die durch das Modell erklärt wird.
Beispiele für SPSS-Syntax:
REGRESSION /DEPENDENT Noten /METHOD=ENTER Studienstunden Studienfach.
Relevanz der Koeffizienten und des R-Quadrats:
- Die Koeffizienten geben an, wie stark jede unabhängige Variable die abhängige Variable beeinflusst. Ein positiver Koeffizient bedeutet, dass eine Erhöhung dieser unabhängigen Variable zu einer Erhöhung der abhängigen Variablen führt, während ein negativer Koeffizient das Gegenteil bedeutet.
- Das R-Quadrat gibt an, wie gut das Modell die Varianz der abhängigen Variable erklärt. Ein höheres R-Quadrat bedeutet, dass das Modell besser passt.
- R:
Wir können ein multiples lineares Regressionsmodell in R erstellen und zusammenfassen, indem wir den folgenden R-Code verwenden:
- Da Deine Daten im DataFrame
df
gespeichert sind: model <- lm(Noten ~ Studienstunden + Studienfach, data=df)summary(model)
Die Ausgabe von summary(model)
umfasst:
- Koeffizienten-Tabelle: Zeigt die geschätzten Koeffizienten, Standardfehler, t-Werte und p-Werte für jede unabhängige Variable.
- Multiple R-squared: Gibt an, welcher Anteil der Varianz der abhängigen Variable von den unabhängigen Variablen im Modell erklärt wird.
Relevanz der Koeffizienten und des R-Quadrats:
- Die Koeffizienten in der R-Ausgabe geben ebenfalls an, wie stark jede unabhängige Variable die abhängige Variable beeinflusst. Ein positiver Koeffizient bedeutet, dass eine Erhöhung dieser unabhängigen Variable zu einer Erhöhung der abhängigen Variablen führt, während ein negativer Koeffizient das Gegenteil bedeutet.
- Das R-Quadrat in R beurteilt genauso wie in SPSS die Güte des Modells. Ein höheres R-Quadrat zeigt, dass das Modell besser die Varianz der abhängigen Variable erklärt.
Nun zu den Vorteilen und Nachteilen beider Programme:
- SPSS:
- Vorteile: Benutzerfreundliche Oberfläche, einfache Durchführung von Analysen, gut geeignet für Anwender mit weniger Programmiererfahrung.
- Nachteile: Eingeschränkte Anpassungsfähigkeit und Flexibilität im Vergleich zu R, weniger geeignet für umfangreiche Datenmanipulationen und fortgeschrittene Analysen.
- R:
- Vorteile: Sehr flexibel und anpassungsfähig, umfangreiche Bibliotheken für verschiedene statistische Analysen und Datenvisualisierungen, gut geeignet für große, komplexe Datensätze und fortgeschrittene Analysen.
- Nachteile: Steilere Lernkurve, insbesondere für Benutzer ohne Programmiererfahrung, manchmal langsamer bei der Berechnung sehr großer Datensätze im Vergleich zu spezialisierten Programmen.
Aufgabe 4)
Angenommen, ein Forscher untersucht die Studienleistungen von Studierenden der Betriebswirtschaftslehre an der Technischen Universität München. Er erhebt die Endsemesterergebnisse von 100 zufällig ausgewählten Studierenden und möchte sowohl deskriptive als auch inferentielle Statistiken verwenden, um die Daten zu analysieren und Rückschlüsse auf die Gesamtheit der BWL-Studierenden an der Universität zu ziehen.
a)
Berechne auf Basis der gegebenen Daten den Mittelwert \(\bar{x}\), die Standardabweichung \(s\) und die Varianz \(s^2\) der Endsemesterergebnisse der 100 zufällig ausgewählten Studierenden. Zeige alle Berechnungsschritte.
Lösung:
- Angenommener Kontext:
Ein Forscher untersucht die Studienleistungen von Studierenden der Betriebswirtschaftslehre an der Technischen Universität München. Er erhebt die Endsemesterergebnisse von 100 zufällig ausgewählten Studierenden und möchte sowohl deskriptive als auch inferentielle Statistiken verwenden, um die Daten zu analysieren und Rückschlüsse auf die Gesamtheit der BWL-Studierenden an der Universität zu ziehen.
- Teilaufgabe:
Berechne den Mittelwert \(\bar{x}\), die Standardabweichung \(s\) und die Varianz \(s^2\) der Endsemesterergebnisse der 100 zufällig ausgewählten Studierenden. Zeige alle Berechnungsschritte.
- Gegebene Daten:
Die Endsemesterergebnisse von 100 zufällig ausgewählten Studierenden werden als \( x_1, x_2, ..., x_{100} \) bezeichnet.
- Schritte zur Berechnung des Mittelwerts \(\bar{x}\):
Der Mittelwert ist der Durchschnitt aller Ergebnisse und wird folgendermaßen berechnet:
\ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \
In unserem Fall ist \( n = 100 \):
\ \bar{x} = \frac{1}{100} \sum_{i=1}^{100} x_i \
- Schritte zur Berechnung der Standardabweichung \(s\):
Die Standardabweichung ist ein Maß für die Streuung der Daten um den Mittelwert und wird folgendermaßen berechnet:
\ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \
In unserem Fall ist \( n = 100 \):
\ s = \sqrt{\frac{1}{99} \sum_{i=1}^{100} (x_i - \bar{x})^2} \
- Schritte zur Berechnung der Varianz \(s^2\):
Die Varianz ist das Quadrat der Standardabweichung und wird folgendermaßen berechnet:
\ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \
In unserem Fall ist \( n = 100 \):
\ s^2 = \frac{1}{99} \sum_{i=1}^{100} (x_i - \bar{x})^2 \
- Detaillierte Berechnungsschritte:
- Berechne den Mittelwert \(\bar{x}\)
- Berechne die Abweichungen jedes Ergebnisses vom Mittelwert: \( (x_i - \bar{x}) \)
- Quadriere diese Abweichungen: \( (x_i - \bar{x})^2 \)
- Summiere diese quadrierten Abweichungen: \ \sum_{i=1}^{100} (x_i - \bar{x})^2 \
- Teile die Summe der quadrierten Abweichungen durch \( n-1 \) (99 in diesem Fall): \ \frac{1}{99} \sum_{i=1}^{100} (x_i - \bar{x})^2 \
- Berechne die Quadratwurzel dieser Zahl, um die Standardabweichung \( s \) zu erhalten
b)
Erstelle ein Histogramm und einen Boxplot der Endsemesterergebnisse und interpretiere beide Grafiken im Hinblick auf Verteilung, Ausreißer und Symmetrie der Daten.
Lösung:
- Angenommener Kontext:
Ein Forscher untersucht die Studienleistungen von Studierenden der Betriebswirtschaftslehre an der Technischen Universität München. Er erhebt die Endsemesterergebnisse von 100 zufällig ausgewählten Studierenden und möchte sowohl deskriptive als auch inferentielle Statistiken verwenden, um die Daten zu analysieren und Rückschlüsse auf die Gesamtheit der BWL-Studierenden an der Universität zu ziehen.
- Teilaufgabe:
Erstelle ein Histogramm und einen Boxplot der Endsemesterergebnisse und interpretiere beide Grafiken im Hinblick auf Verteilung, Ausreißer und Symmetrie der Daten.
- Los geht’s mit der Erstellung der Grafiken:
- Erstellung des Histogramms:
Ein Histogramm zeigt die Häufigkeitsverteilung der Daten. Hier sind die Schritte, um ein Histogramm zu erstellen:
- Teile den Bereich der Ergebnisse in gleich große Intervalle (Bins).
- Zähle die Anzahl der Ergebnisse, die in jedes Intervall fallen.
- Erstelle ein Balkendiagramm, wobei die Höhe jedes Balkens die Anzahl der Ergebnisse in diesem Intervall darstellt.
- Erstellung des Boxplots:
Ein Boxplot zeigt die Verteilung der Daten auf eine Weise, die Seitwärts- und Ausreißerinformationen hervorhebt. Hier sind die Schritte, um einen Boxplot zu erstellen:
- Bestimme die 25%-Quantile (Q1), den Median (Q2) und die 75%-Quantile (Q3).
- Berechne den interquartilen Bereich (IQR): \( IQR = Q3 - Q1 \).
- Zeichne eine Box von Q1 bis Q3 mit einer Linie bei Q2 (Median).
- Zeichne „Whiskers“ aus den Boxs bis zu den kleinsten und größten Werten, die innerhalb von 1,5 * IQR von Q1 bzw. Q3 liegen.
- Markiere alle Werte außerhalb dieses Bereichs als Ausreißer.
- Interpretation der Grafiken:
- Histogramm:
- Verteilung: Analysiere die Form der Verteilung (normal, schief, bimodal, etc.). Schau, ob die Daten gleichmäßig verteilt, symmetrisch oder eventuell schief (links oder rechts) sind.
- Ausreißer: Schaue nach Balken, die weit entfernt von den anderen stehen. Diese könnten auf Ausreißer hindeuten.
- Boxplot:
- Verteilung: Beobachte die Lage der Box und der Whiskers. Eine symmetrische Box und gleichmäßige Whiskers deuten auf eine symmetrische Verteilung hin.
- Ausreißer: Ausreißer werden oft als Sterne oder Kreise außerhalb der Whiskers dargestellt.
- Symmetrie: Schaue, ob der Median in der Mitte der Box liegt und ob die Länge der Whiskers auf beiden Seiten ähnlich ist. Asymmetrien können auf eine schiefe Verteilung hindeuten.
- Zusammenfassung: Die Kombination aus Histogramm und Boxplot liefert eine umfassende Übersicht über die Streuung und Verteilung der Daten.