Advanced methods of management research II - Exam
Aufgabe 1)
Du erhältst die Aufgabe, eine Studie zum Thema Mitarbeiterzufriedenheit in einem mittelständischen Unternehmen durchzuführen. Planen und strukturieren die methodische Untersuchung zur Gewinnung von Daten und deren Auswertung.
a)
a) Forschungsfrage und theoretischer Rahmen: Definiere eine konkrete Forschungsfrage zur Mitarbeiterzufriedenheit. Auf welchen bestehenden Theorien könntest du aufbauen, um einen theoretischen Rahmen für deine Studie zu entwickeln? Diskutiere mindestens zwei relevante Theorien.
Lösung:
Forschungsfrage:
- Wie beeinflussen flexible Arbeitszeiten und die Möglichkeit zum Homeoffice die Zufriedenheit der Mitarbeiter in einem mittelständischen Unternehmen?
Theoretischer Rahmen: Um einen theoretischen Rahmen für die Studie zu entwickeln, können die folgenden Theorien herangezogen werden:
- Zwei-Faktoren-Theorie (Herzberg): Diese Theorie unterscheidet zwischen Motivatoren (intrinsischen Faktoren wie Anerkennung und Arbeitsinhalte) und Hygienefaktoren (extrinsischen Faktoren wie Gehalt und Arbeitsbedingungen). Flexible Arbeitszeiten und Homeoffice könnten als Hygienefaktoren betrachtet werden, die das Maß an Unzufriedenheit reduzieren können, während sie auch als Motivatoren fungieren, indem sie den Mitarbeitern mehr Autonomie und Kontrolle über ihre Arbeit geben.
- Job-Demands-Resources-Modell (Bakker und Demerouti): Dieses Modell betont die Wichtigkeit eines Gleichgewichts zwischen Arbeitsanforderungen (wie Arbeitsdruck und mentale Belastungen) und Arbeitsressourcen (wie Unterstützung durch Kollegen und Vorgesetzte sowie Autonomie). Flexible Arbeitszeiten und Homeoffice könnten als Arbeitsressourcen betrachtet werden, die dazu beitragen, das Wohlbefinden der Mitarbeiter zu erhöhen und ihre Zufriedenheit zu steigern, indem sie die Anforderungen und den Stress verringern.
b)
b) Operationalisierung und Stichprobe: Entwickle eine Operationalisierung für den Begriff 'Mitarbeiterzufriedenheit'. Welche Variablen würdest du messbar machen und wie? Erläutere außerdem, wie du deine Stichprobe auswählen würdest. Was wären mögliche Herausforderungen bei der Stichprobenziehung?
Lösung:
Operationalisierung von Mitarbeiterzufriedenheit: Um den Begriff 'Mitarbeiterzufriedenheit' messbar zu machen, können verschiedene Variablen definiert und über spezifische Indikatoren erfasst werden. Hier sind einige relevante Variablen und deren mögliche Operationalisierung:
- Arbeitsbedingungen:
- Indikator: Zufriedenheit mit Arbeitsplatz, Arbeitszeiten, Homeoffice-Möglichkeiten
- Messung: Likert-Skala (z.B. 1 = sehr unzufrieden, 5 = sehr zufrieden)
- Arbeitsinhalt und -aufgaben:
- Indikator: wahrgenommene Sinnhaftigkeit der Arbeit, Abwechslung der Aufgaben
- Messung: Likert-Skala
- Beziehungen zu Kollegen und Vorgesetzten:
- Indikator: Teamzusammenhalt, Unterstützung durch Vorgesetzte und Kollegen
- Messung: Likert-Skala
- Entwicklungsmöglichkeiten:
- Indikator: Zufriedenheit mit Karrierechancen, Fortbildungsangeboten
- Messung: Likert-Skala
- Vergütung und Benefits:
- Indikator: Zufriedenheit mit Gehalt, Zusatzleistungen
- Messung: Likert-Skala
Stichprobenziehung:
- Auswahlverfahren: Zufallsauswahl aus der gesamten Belegschaft, um eine repräsentative Stichprobe zu gewährleisten. Um Verzerrungen zu vermeiden, können verschiedene Schichtmodelle berücksichtigt und proportional in die Stichprobe aufgenommen werden.
- Stichprobengröße: Mindestens 100 Mitarbeiter, um statistisch relevante Ergebnisse zu erzielen.
Mögliche Herausforderungen bei der Stichprobenziehung:
- Erreichbarkeit der Mitarbeiter: Einige Mitarbeiter könnten aufgrund von Außendienst oder Schichtarbeit schwer zu erreichen sein.
- Teilnahmebereitschaft: Es könnte schwierig sein, eine ausreichende Beteiligung sicherzustellen, wenn die Mitarbeiter kein Interesse oder keine Zeit zur Teilnahme haben.
- Repräsentativität: Es könnte eine Herausforderung sein, eine wirklich repräsentative Stichprobe zu ziehen, wenn bestimmte Gruppen (z.B. Teilzeitbeschäftigte, ältere Mitarbeiter) unterrepräsentiert sind.
c)
c) Erhebungsmethoden und Datenanalyse: Welche Methoden zur Datensammlung würdest du für die Untersuchung wählen und warum? Beschreibe außerdem einen Plan für die Auswertung der gesammelten Daten. Nutze dabei quantitative und/oder qualitative Analyseverfahren, die sich für deine Forschungsfrage eignen. Denke daran, Validität und Reliabilität deiner Ergebnisse sicherzustellen.
Lösung:
Erhebungsmethoden: Für die Untersuchung zur Mitarbeiterzufriedenheit bieten sich sowohl quantitative als auch qualitative Erhebungsmethoden an. Hier sind die empfohlenen Methoden:
- Quantitative Methoden:
- Online-Umfragen: Um eine große Anzahl von Mitarbeitern in kurzer Zeit zu erreichen, sind Online-Umfragen ideal. Diese können standardisierte Fragebögen mit Likert-Skalen-Fragen enthalten, die verschiedene Aspekte der Mitarbeiterzufriedenheit abdecken. Vorteile sind die einfache Verteilung und die Anonymität, die ehrliche Antworten fördern kann.
- Qualitative Methoden:
- Fokusgruppen: Eine Methode, um tiefere Einsichten zu gewinnen. Hier können ausgewählte Mitarbeiter in moderierten Gruppendiskussionen ihre Meinungen und Gefühle ausführlicher darstellen. Dies ist ideal, um Nuancen zu verstehen, die in quantitativen Daten möglicherweise nicht sichtbar sind.
- Einzelinterviews: Um noch tiefergehende Einblicke zu erhalten, können Einzelinterviews durchgeführt werden. Mit offenen Fragen können Interviewer spezifische Themen und individuelle Erfahrungen untersuchen.
Plan zur Datenanalyse: Die gesammelten Daten werden sowohl quantitativ als auch qualitativ analysiert, um ein umfassendes Bild der Mitarbeiterzufriedenheit zu erhalten.
- Quantitative Analyse:
- Beschreibende Statistik: Zunächst werden grundlegende statistische Maßnahmen wie Mittelwerte, Median, Modus und Standardabweichungen berechnet, um eine Übersicht über die allgemeinen Zufriedenheitswerte zu erhalten.
- Korrelationsanalyse: Diese Methode wird verwendet, um Zusammenhänge zwischen verschiedenen Variablen (z.B. Arbeitsbedingungen und Zufriedenheit) zu identifizieren.
- Regressionsanalyse: Um kausale Beziehungen und die Stärke der Einflussfaktoren auf die Mitarbeiterzufriedenheit zu untersuchen.
- Qualitative Analyse:
- Inhaltsanalyse: Die Interviews und Fokusgruppendiskussionen werden transkribiert und anschließend codiert. Thematische Kategorien werden identifiziert, um wiederkehrende Muster und Schlüsselthemen zu extrahieren.
- Triangulation: Durch die Kombination von Daten aus unterschiedlichen Quellen (Umfragen, Fokusgruppen, Interviews) und Methoden wird die Validität der Ergebnisse erhöht. Dies hilft, die Ergebnisse umfassend und verlässlich darzustellen.
Validität und Reliabilität sicherstellen: Um die Validität und Reliabilität der Ergebnisse sicherzustellen, werden folgende Maßnahmen ergriffen:
- Vortest der Fragebögen: Die Umfragen werden vorab mit einer kleinen Gruppe von Mitarbeitern getestet, um sicherzustellen, dass die Fragen verständlich sind und die gewünschten Informationen liefern.
- Standardisierung der Interviews: Durch eine klare Struktur und Leitfäden für die Interviews und Fokusgruppen wird eine Konsistenz in der Datensammlung gewährleistet.
- Mehrmethodenansatz: Durch den Einsatz sowohl quantitativer als auch qualitativer Methoden (Triangulation) wird die Validität der Ergebnisse gesteigert.
- Reliabilitätstests: Statistische Tests, wie Cronbachs Alpha, werden verwendet, um die Zuverlässigkeit der Skalen in den Fragebögen zu überprüfen.
Aufgabe 2)
Stellen Sie sich vor, Sie sind in einem Forschungsprojekt beteiligt, das die Kundenzufriedenheit in einem großen Einzelhandelsunternehmen untersucht. Ihr Ziel ist es, relevantes Datenmaterial zu erheben und auszuwerten, um auf Basis der gewonnenen Erkenntnisse Handlungsempfehlungen geben zu können. Sie planen, sowohl quantitative als auch qualitative Daten zu verwenden. Dabei sollen Sie verschiedene Methoden zur Datenerhebung und -analyse berücksichtigen und geeignete Tools einsetzen.
a)
Planen Sie die Datenerhebung für Ihr Forschungsprojekt. Beschreiben Sie mindestens zwei verschiedene Datenerhebungsmethoden, die Sie verwenden könnten. Diskutieren Sie dabei sowohl Vor- als auch Nachteile der jeweiligen Methode und stellen Sie sicher, dass Sie sowohl quantitative als auch qualitative Datenerhebungsmethoden in Betracht ziehen.
Lösung:
- Methode: Erstellung einer Online-Umfrage, die an eine zufällige Auswahl von Kunden des Einzelhandelsunternehmens gesendet wird. Die Umfrage wird sowohl geschlossene (quantitative) als auch offene (qualitative) Fragen umfassen.
- Vorteile:
- Schnelle und kostengünstige Methode zur Sammlung von Daten einer großen Stichprobe.
- Ermöglicht die einfachere Herstellung von quantitativen Analysen durch geschlossene Fragen (z.B. Likert-Skalen).
- Durch offene Fragen können detaillierte und tiefergehende qualitative Daten gewonnen werden.
- Nachteile:
- Die Rücklaufquote kann gering sein, was die Repräsentativität der Daten beeinträchtigen könnte.
- Es besteht das Risiko, dass Fragen missverstanden oder falsch beantwortet werden, was die Datenqualität mindern kann.
- Erfordert sorgfältige Planung und Design, um aussagekräftige Daten zu erhalten.
- Fokusgruppen:
- Methode: Durchführung von moderierten Gruppendiskussionen mit einer kleinen, repräsentativen Auswahl von Kunden. Diese Diskussionsrunden werden aufgezeichnet und später analysiert.
- Vorteile:
- Bieten tiefere Einblicke in Meinungen, Einstellungen und Verhaltensweisen der Kunden.
- Interaktionen zwischen Teilnehmern können zusätzliche, unvorhergesehene Daten generieren.
- Ermöglicht es, qualitative Daten in einem spezifischen und persönlichen Kontext zu sammeln.
- Nachteile:
- Teurer und zeitaufwändiger als Online-Umfragen.
- Erfordert gut geschulte Moderatoren, um qualitativ hochwertige Daten zu generieren.
- Kleinere Stichproben könnten die Verallgemeinerung der Ergebnisse einschränken.
b)
Angenommen, Sie haben eine Umfrage durchgeführt und 500 Fragebögen zurückerhalten. Die Skala reicht von 1 bis 5, wobei 1 für 'sehr unzufrieden' und 5 für 'sehr zufrieden' steht. Berechnen Sie den Mittelwert, Median und die Standardabweichung der gesammelten Daten. Erläutern Sie, was diese Werte über die Kundenzufriedenheit aussagen.
Lösung:
- Berechnung des Mittelwerts: Der Mittelwert (Durchschnitt) gibt den durchschnittlichen Zufriedenheitswert aller Antworten an. Formel: Angenommen, die Summe aller Bewertungen beträgt 1750: Das bedeutet, dass der durchschnittliche Zufriedenheitswert 3,5 beträgt.
- Berechnung des Medians: Der Median ist der mittlere Wert, wenn alle Bewertungen in aufsteigender Reihenfolge sortiert sind. Bei einer geraden Anzahl von Bewertungen (500) ist der Median der Durchschnitt der beiden mittleren Werte. Schritte: 1. Sortiere die Bewertungen. 2. Der Median ist der Durchschnitt der 250. und 251. Bewertung in der sortierten Liste. Angenommen, die beiden mittleren Bewertungen sind 4: Der Medianwert zeigt, dass mindestens die Hälfte der Kunden mit einer Bewertung von 4 oder besser zufrieden ist.
- Berechnung der Standardabweichung: Die Standardabweichung misst die Streuung der Daten um den Mittelwert. Formel: Schritte: 1. Subtrahiere den Mittelwert von jeder Bewertung und quadriere das Ergebnis (). 2. Addiere alle quadrierten Differenzen. 3. Teile die Summe durch die Anzahl der Bewertungen minus 1 (499). 4. Ziehe die Quadratwurzel des Ergebnisses. Angenommen, die Summe der quadrierten Differenzen beträgt 600: Eine Standardabweichung von 1,1 zeigt, dass die Bewertungen eine mäßige Streuung um den Mittelwert von 3,5 haben.
- Erklärung der Werte:
- Mittelwert: Ein Mittelwert von 3,5 deutet darauf hin, dass die allgemeine Zufriedenheit der Kunden leicht über dem Durchschnitt (3) liegt.
- Median: Ein Median von 4 zeigt, dass mindestens die Hälfte der Kunden eine Zufriedenheit von 4 oder höher empfindet, was auf eine insgesamt positive Kundenzufriedenheit hinweist.
- Standardabweichung: Eine Standardabweichung von 1,1 zeigt, dass die Bewertungen eine gewisse Streuung aufweisen, jedoch nicht extrem weit vom Mittelwert entfernt sind. Dies deutet darauf hin, dass es sowohl sehr zufriedene als auch unzufriedene Kunden gibt, aber die Mehrheit der Bewertungen nahe dem Mittelwert von 3,5 liegt.
c)
Erklären Sie drei Gütekriterien zur Bewertung der Qualität Ihrer Erhebungs- und Analysemethoden. Stellen Sie sicher, spezifisch auf die Begriffe Objektivität, Reliabilität und Validität einzugehen. Geben Sie Beispiele, wie Sie diese Gütekriterien in Ihrem Projekt sicherstellen können.
Lösung:
- Objektivität: Objektivität bezieht sich auf die Unabhängigkeit der Ergebnisse von der Person, die die Untersuchung durchführt. Es bedeutet, dass die Datenerhebung und -analyse frei von subjektiven Einflüssen sein sollten.
- Beispiel: Um Objektivität sicherzustellen, kann man standardisierte Fragebögen verwenden, die für alle Teilnehmer gleich sind. Darüber hinaus sollten klare Anweisungen für die Umfrage und einheitliche Bedingungen für alle Teilnehmer gewährleistet sein. Bei der Datenauswertung sollten statistische Tools und Software verwendet werden, um menschliche Fehler und subjektive Interpretation zu minimieren.
- Reliabilität: Reliabilität oder Zuverlässigkeit bezieht sich auf die Konsistenz und Stabilität der Messergebnisse. Ein Instrument ist reliabel, wenn es bei wiederholter Anwendung unter denselben Bedingungen zu denselben Ergebnissen kommt.
- Beispiel: Um die Reliabilität der Erhebungsmethoden sicherzustellen, kann man einen Pre-Test oder eine Pilotstudie durchführen, um die Fragen der Umfrage auf Konsistenz zu überprüfen. Wenn dieselben Fragen bei wiederholter Durchführung ähnliche Antworten liefern, ist die Reliabilität hoch. Ferner kann die interne Konsistenz durch das Berechnen des Cronbachs Alpha überprüft werden.
- Validität: Validität bezeichnet die Gültigkeit und Aussagekraft der Messergebnisse. Es geht darum, ob das Erhebungsinstrument tatsächlich das misst, was es zu messen vorgibt.
- Beispiel: Zur Sicherung der Validität kann man Expertenrat einholen, um sicherzustellen, dass die Fragen wirklich relevante Aspekte der Kundenzufriedenheit abdecken. Eine weitere Möglichkeit ist die Durchführung von Fokusgruppen vor der Erstellung des Fragebogens, um sicherzustellen, dass alle wichtigen Themen abgedeckt sind. Außerdem ist es hilfreich, den Fragebogen mit bestehenden, validierten Instrumenten zu vergleichen (konvergente Validität).
Aufgabe 3)
Du bist ein Analyst in einem Unternehmen und möchtest die Auswirkungen von kontinuierlichen Schulungen auf die Produktivität der Mitarbeiter untersuchen. Dich interessiert, ob regelmäßige Schulungen (Variable: Schulungsstunden) zu einer signifikanten Leistungssteigerung (Variable: Produktivität) führen. Du hast Daten von 100 Mitarbeitern gesammelt, die die Anzahl der Schulungsstunden und die erzielte Produktivität in den letzten 6 Monaten umfassen.Erstelle und teste eine Hypothese basierend auf diesen Daten.
a)
Hypothesenentwicklung:Formuliere die Nullhypothese (H0) und die Alternativhypothese (H1) für diese Untersuchung bezüglich der Auswirkungen der Schulungsstunden auf die Produktivität der Mitarbeiter.
Lösung:
Hypothesenentwicklung:
- Nullhypothese (H0): Es gibt keinen signifikanten Zusammenhang zwischen der Anzahl der Schulungsstunden und der Produktivität der Mitarbeiter. Das bedeutet, dass zusätzliche Schulungsstunden nicht zu einer signifikanten Steigerung der Produktivität führen.
- Alternativhypothese (H1): Es gibt einen signifikanten Zusammenhang zwischen der Anzahl der Schulungsstunden und der Produktivität der Mitarbeiter. Das bedeutet, dass zusätzliche Schulungsstunden zu einer signifikanten Steigerung der Produktivität führen.
b)
Hypothesentest:Wähle einen geeigneten statistischen Test, um die Hypothesen zu überprüfen. Begründe Deine Wahl und beschreibe die Durchführung des Tests schrittweise.
Lösung:
Hypothesentest:
- Auswahl des statistischen Tests:Für diese Untersuchung eignet sich ein lineares Regressionsmodell gut, um die Auswirkungen der Schulungsstunden auf die Produktivität der Mitarbeiter zu testen. Dieses Modell ermöglicht es, die lineare Beziehung zwischen einer unabhängigen Variable (Schulungsstunden) und einer abhängigen Variable (Produktivität) zu quantifizieren.
- Begründung der Wahl:Die lineare Regression ist ideal, weil sie Aufschluss darüber gibt, ob und in welchem Ausmaß die Schulungsstunden die Produktivität beeinflussen. Zudem ermöglicht sie es, Hypothesentests zum Zusammenhang durchzuführen und die Genauigkeit der Vorhersagen zu evaluieren.
- Durchführung des Tests schrittweise:
- Datensammlung und Vorverarbeitung:Stelle sicher, dass die Daten von 100 Mitarbeitern vollständig und korrekt sind. Beseitige mögliche Ausreißer oder fehlende Werte, die die Analyse verfälschen könnten.
- Deskriptive Statistik:Analysiere zunächst die deskriptiven Statistiken der Daten, wie Mittelwert, Median und Standardabweichung, um ein grundlegendes Verständnis zu erhalten.
- Modellerstellung:Entwickle das lineare Regressionsmodell mit der Formel:
Produktivität = β0 + β1 * Schulungsstunden + ε
- wobei:- Produktivität die abhängige Variable ist,- Schulungsstunden die unabhängige Variable ist,- β0 der Achsenabschnitt und β1 der Koeffizient der unabhängigen Variable ist,- ε der Fehlerterm darstellt.
- Schätzung der Parameters:Verwende statistische Software (z.B. Python mit den Bibliotheken Pandas und Statsmodels oder R) zur Schätzung der Regressionskoeffizienten β0 und β1. Die Methode der kleinsten Quadrate (OLS - Ordinary Least Squares) wird dabei am häufigsten verwendet.
- Hypothesentest:Führe einen t-Test für den Koeffizienten β1 durch, um die Nullhypothese (H0: β1 = 0) gegen die Alternativhypothese (H1: β1 ≠ 0) zu prüfen. Ein p-Wert kleiner als das Signifikanzniveau (gewöhnlich 0.05) weist darauf hin, dass der Koeffizient signifikant ist, was bedeutet, dass ein Zusammenhang zwischen Schulungsstunden und Produktivität besteht.
- Modellevaluierung:Untersuche die Güte des Modells durch den R-Quadrat-Wert, der anzeigt, wie gut die unabhängige Variable die abhängige Variable erklärt. Je näher der Wert bei 1 liegt, desto besser ist das Modell.
- Interpretation der Ergebnisse:Interpretiere die Ergebnisse anhand der geschätzten Koeffizienten und dem Ergebnis des Hypothesentests. Diskutiere, ob die Schulungsstunden einen signifikanten Einfluss auf die Produktivität haben und wie stark dieser Einfluss ist.
- Anwendung und Fazit:Nutze die gewonnenen Erkenntnisse zur Optimierung der Trainingsprogramme im Unternehmen. Formuliere Handlungsempfehlungen basierend auf der Stärke und Richtung des Zusammenhangs zwischen Schulungsstunden und Produktivität.
c)
Analyse der Testergebnisse:Angenommen, der p-Wert des Tests beträgt 0,03 bei einem Signifikanzniveau von . Interpretiere dieses Ergebnis und entscheide, ob die Nullhypothese zurückgewiesen werden kann oder nicht. Was bedeutet das für Deine ursprüngliche Fragestellung?
Lösung:
Analyse der Testergebnisse:
- Interpretation des p-Wertes:Der p-Wert des Tests beträgt 0,03. Dies ist kleiner als das festgelegte Signifikanzniveau von . Ein p-Wert gibt die Wahrscheinlichkeit an, dass die beobachteten Daten unter der Annahme wahr sind, dass die Nullhypothese korrekt ist. Ein kleiner p-Wert impliziert, dass die Daten unwahrscheinlich sind, wenn die Nullhypothese wahr ist.
- Entscheidung über die Nullhypothese:Da der p-Wert von 0,03 kleiner ist als das Signifikanzniveau von 0,05, gibt es genügend Beweise, um die Nullhypothese zurückzuweisen. Das heißt, wir lehnen die Nullhypothese (H0), dass es keinen signifikanten Zusammenhang zwischen der Anzahl der Schulungsstunden und der Produktivität der Mitarbeiter gibt, ab.
- Bedeutung für die ursprüngliche Fragestellung:Diese Testergebnisse deuten darauf hin, dass es einen signifikanten Zusammenhang zwischen der Anzahl der Schulungsstunden und der Produktivität der Mitarbeiter gibt. Das bedeutet, dass regelmäßige Schulungen tatsächlich zu einer signifikanten Leistungssteigerung führen. Für Deine ursprüngliche Fragestellung bedeutet dies, dass Du davon ausgehen kannst, dass Schulungsmaßnahmen effektiv sind und gelegtlich zu höheren Produktivitätsniveaus führen.
Aufgabe 4)
Du bist ein Berater für ein mittelständisches Unternehmen und hast die Aufgabe, den Zusammenhang zwischen der Anzahl der Werbeanzeigen (X) und dem Umsatz (Y) zu analysieren. Dir liegt ein Datensatz vor, der die monatlichen Umsätze und die Anzahl der Werbeanzeigen der letzten 24 Monate enthält. Verwende eine lineare Regressionsanalyse, um den Einfluss der Werbeanzeigen auf den Umsatz zu untersuchen und zu prüfen, ob eine signifikante Beziehung existiert.
a)
1. Schätze ein lineares Regressionsmodell, das den Umsatz (Y) als abhängige Variable und die Anzahl der Werbeanzeigen (X) als unabhängige Variable verwendet. Notiere das geschätzte Regressionsmodell und interpretiere die Regressionskoeffizienten. Verwende dazu die Software R und den Befehl
'lm()'
.
Lösung:
Lineares Regressionsmodell erstellen und interpretieren
1. Schätze ein lineares RegressionsmodellUm die Beziehung zwischen der Anzahl der Werbeanzeigen (X) und dem Umsatz (Y) zu analysieren, kannst Du in der statistischen Software R das lineare Regressionsmodell schätzen. Verwende dazu den Befehl
lm()
. Hier sind die Schritte zur Durchführung dieser Analyse:
- Importiere den Datensatz.
- Schätze das lineare Regressionsmodell.
- Notiere und interpretiere die Regressionskoeffizienten.
R-Code zur Durchführung der linearen Regression:
# Schritt 1: Datensatz importieren (angenommen, der Datensatz ist in einer CSV-Datei gespeichert)daten <- read.csv('dein_datensatz.csv')# Schritt 2: Lineares Regressionsmodell schätzenergebnis <- lm(Y ~ X, data = daten)# Zusammenfassung der Regressionsanalyse anzeigensummary(ergebnis)
Die Ausgabe von
summary(ergebnis)
liefert Dir wichtige Informationen über das geschätzte lineare Regressionsmodell, einschließlich der Regressionskoeffizienten.
Interpretation der Regressionskoeffizienten:- Der Intercept (Achsenabschnitt) repräsentiert den geschätzten Umsatz, wenn keine Werbeanzeigen geschaltet werden (\textbf{X} = 0). Dies ist Dein Basisumsatz.
- Der Regressionskoeffizient von X zeigt die Veränderung im Umsatz (\textbf{Y}), die im Durchschnitt durch jede zusätzliche Werbeanzeige (\textbf{X}) verursacht wird. Ein positiver Wert bedeutet, dass der Umsatz mit zunehmender Anzahl der Werbeanzeigen steigt, während ein negativer Wert auf einen Rückgang des Umsatzes hinweist.
Zusätzlich liefert die Zusammenfassung des Modells \textbf{p-Werte}, um die Signifikanz der Regressionskoeffizienten zu prüfen. Ein p-Wert kleiner als 0.05 deutet darauf hin, dass es eine signifikante Beziehung zwischen der Anzahl der Werbeanzeigen und dem Umsatz gibt.
b)
2. Prüfe, ob die Annahmen der linearen Regression (Linearität, Homoskedastizität, Normalverteilung der Residuen und Unabhängigkeit der Beobachtungen) erfüllt sind. Beschreibe die Schritte, die Du dafür unternimmst, und diskutiere die Ergebnisse.
Lösung:
Überprüfung der Annahmen der linearen Regression
2. Prüfe die Annahmen der linearen RegressionUm die Gültigkeit der linearen Regression zu gewährleisten, müssen spezifische Annahmen erfüllt sein: Linearität, Homoskedastizität, Normalverteilung der Residuen und Unabhängigkeit der Beobachtungen. Hier sind die Schritte und Methoden, um diese Annahmen zu überprüfen:
- Schritt 1: LinearitätErstelle ein Streudiagramm der Residuen gegen die Prädiktorvariable X (Anzahl der Werbeanzeigen). Wenn die Residuen keinen systematischen Trend aufweisen, ist die Annahme der Linearität erfüllt.
# Streudiagramm der Residuen gegen Xplot(daten$X, resid(ergebnis), xlab = 'Anzahl der Werbeanzeigen', ylab = 'Residuen')abline(h = 0, col = 'red')
- Schritt 2: HomoskedastizitätErstelle ein Streudiagramm der Residuen gegen die vorhergesagten Werte (fitted values). Die Variabilität der Residuen sollte gleichmäßig verteilt sein. Ein weiteres nützliches Testverfahren ist der Breusch-Pagan Test.
# Streudiagramm der Residuen gegen die vorhergesagten Werteplot(fitted(ergebnis), resid(ergebnis), xlab = 'Vorhergesagte Werte', ylab = 'Residuen')abline(h = 0, col = 'red')# Breusch-Pagan Testlibrary(lmtest)bptest(ergebnis)
- Schritt 3: Normalverteilung der ResiduenErstelle ein Histogramm oder ein QQ-Plot der Residuen. Zusätzlich kann der Shapiro-Wilk-Test zur Prüfung der Normalverteilung der Residuen verwendet werden.
# Histogramm der Residuen und QQ-Plotpar(mfrow = c(1, 2))hist(resid(ergebnis), main = 'Histogramm der Residuen', xlab = 'Residuen')qqnorm(resid(ergebnis))qqline(resid(ergebnis), col = 'red')# Shapiro-Wilk Testshapiro.test(resid(ergebnis))
- Schritt 4: Unabhängigkeit der BeobachtungenErstelle ein Autokorrelationsdiagramm (ACF) der Residuen. Insbesondere bei Zeitreihendaten kann der Durbin-Watson-Test verwendet werden.
# Autokorrelationsdiagramm (ACF) der Residuenacf(resid(ergebnis))# Durbin-Watson Testdwtest(ergebnis)
Diskutiere die Ergebnisse:
- Linearität: Wenn das Streudiagramm der Residuen gegen X keinen Mustern oder Trends folgt, ist die Linearitätsannahme erfüllt.
- Homoskedastizität: Wenn die Residuen im Streudiagramm gegen die vorhergesagten Werte gleichmäßig verteilt sind und der Breusch-Pagan Test keinen signifikanten Wert liefert (p-Wert > 0.05), ist Homoskedastizität gegeben.
- Normalverteilung: Wenn das Histogramm und der QQ-Plot der Residuen auf eine Normalverteilung hinweisen und der Shapiro-Wilk Test einen p-Wert > 0.05 liefert, dann sind die Residuen normalverteilt.
- Unabhängigkeit: Wenn das ACF-Diagramm keine signifikanten Autokorrelationen zeigt und der Durbin-Watson Test keinen signifikanten Wert liefert (p-Wert > 0.05), dann sind die Beobachtungen unabhängig.