Microeconometrics and Machine Learning - Exam.pdf

Microeconometrics and Machine Learning - Exam
Microeconometrics and Machine Learning - Exam Aufgabe 1) Datensatz, Regressionsmodell und Schätzung: Du hast Zugang zu einem Querschnittsdatensatz, der Informationen über 1000 individuelle Beobachtungen enthält. Jede Beobachtung stellt einen Arbeitnehmer dar, und der Datensatz enthält Variablen wie das monatliche Einkommen (\textit{income}), das Bildungsniveau in Jahren (\textit{education}), die B...

© StudySmarter 2024, all rights reserved.

Microeconometrics and Machine Learning - Exam

Aufgabe 1)

Datensatz, Regressionsmodell und Schätzung: Du hast Zugang zu einem Querschnittsdatensatz, der Informationen über 1000 individuelle Beobachtungen enthält. Jede Beobachtung stellt einen Arbeitnehmer dar, und der Datensatz enthält Variablen wie das monatliche Einkommen (\textit{income}), das Bildungsniveau in Jahren (\textit{education}), die Berufserfahrung in Jahren (\textit{experience}) und das Geschlecht (\textit{gender}), wobei 0 für männlich und 1 für weiblich steht. Ziel ist es, die Determinanten des Einkommens zu analysieren.Angenommen, das ökonomische Modell, das das Monatseinkommen erklärt, ist:\[income_i = \beta_0 + \beta_1 \textit{education}_i + \beta_2 \textit{experience}_i + \beta_3 \textit{gender}_i + \textit{u}_i\]

Subexercises:

a)

Schätzungsaufgabe: Schätze das obige Regressionsmodell mit einer einfachen linearen Regression mit OLS (Ordinary Least Squares) und interpretiere die geschätzten Koeffizienten. Was sagen die Koeffizienten über den Einfluss der Bildungsjahre, der Berufserfahrung und des Geschlechts auf das Einkommen aus?

Lösung:

Schätzungsaufgabe:

Schritt 1: Datensatz vorbereiten: Wir beginnen mit der Vorbereitung des Datensatzes. Der Datensatz enthält die folgenden Variablen:
  • income: Monatseinkommen
  • education: Bildungsniveau in Jahren
  • experience: Berufserfahrung in Jahren
  • gender: Geschlecht (0 für männlich, 1 für weiblich)
Angenommen, wir haben die Daten in einer Tabelle. Wir verwenden Python und die Bibliothek statsmodels, um das Regressionsmodell zu schätzen. Schritt 2: Regressionsmodell mit OLS schätzen:Hier ist der Python-Code, der das Regressionsmodell schätzt:
 import statsmodels.api as smimport pandas as pd# Annahme: data ist ein pandas DataFrame, das die Daten enthältX = data[['education', 'experience', 'gender']]y = data['income']X = sm.add_constant(X)  # Konstante (Intercept) hinzufügen# OLS Regression schätzenmodel = sm.OLS(y, X).fit()print(model.summary())
Schritt 3: Interpretation der geschätzten Koeffizienten:Angenommen, die Ausgabe des Modells liefert folgende Koeffizienten:
  • \(\beta_0 = 500\) (Konstante)
  • \(\beta_1 = 200\) (Bildungsjahre)
  • \(\beta_2 = 150\) (Berufserfahrung)
  • \(\beta_3 = -100\) (Geschlecht)
Die Interpretation der Koeffizienten ist wie folgt:
  • Konstante (\(\beta_0 = 500\)): Dies ist das geschätzte durchschnittliche monatliche Einkommen, wenn die Jahre der Bildung, der Berufserfahrung und das Geschlecht Null sind. In unserer Analyse hat dies möglicherweise keine sinnvolle wirtschaftliche Interpretation.
  • Bildungsjahre (\(\beta_1 = 200\)): Für jedes zusätzliche Jahr der Bildung steigt das monatliche Einkommen im Durchschnitt um 200 Einheiten, ceteris paribus (unter sonst gleichen Bedingungen).
  • Berufserfahrung (\(\beta_2 = 150\)): Für jedes zusätzliche Jahr der Berufserfahrung steigt das monatliche Einkommen im Durchschnitt um 150 Einheiten, ceteris paribus.
  • Geschlecht (\(\beta_3 = -100\)): Wenn der Arbeitnehmer weiblich ist (\(\textit{gender} = 1\)), dann ist das durchschnittliche monatliche Einkommen um 100 Einheiten niedriger im Vergleich zu einem männlichen Arbeitnehmer, ceteris paribus.
Zusammenfassend ergeben die geschätzten Koeffizienten des Modells wertvolle Einblicke in die Determinanten des Einkommens. Höhere Bildungsjahre und Berufserfahrung sind positiv mit dem Einkommen verbunden, während das weibliche Geschlecht (im Vergleich zum männlichen Geschlecht) negativ mit dem Einkommen verbunden ist.

b)

Diagnose von Heteroskedastizität: Überprüfe, ob Heteroskedastizität in Deinem geschätzten Modell vorliegt. Benutze dafür den Breusch-Pagan-Test und formuliere die Hypothesen. Was würde das Vorliegen von Heteroskedastizität für die Schätzergebnisse bedeuten?

Lösung:

Diagnose von Heteroskedastizität:

Schritt 1: Formulierung der Hypothesen:Bevor wir den Breusch-Pagan-Test durchführen, formulieren wir die Hypothesen wie folgt:
  • Nullhypothese (\textit{H}_0): Es liegt keine Heteroskedastizität vor. Die Varianz der Fehlerterme ist konstant.
  • Alternativhypothese (\textit{H}_1): Es liegt Heteroskedastizität vor. Die Varianz der Fehlerterme ist nicht konstant.
Schritt 2: Durchführung des Breusch-Pagan-Tests:Wir verwenden Python und die Bibliothek statsmodels, um den Breusch-Pagan-Test durchzuführen. Hier ist der Python-Code für die Durchführung des Tests:
import statsmodels.api as smfrom statsmodels.stats.diagnostic import het_breuschpagan# Annahme: 'model' ist das zuvor geschätzte OLS-Modell# Residuuen und die erklärenden Variablen vom Modell heranziehenresid = model.residexog = model.model.exog# Breusch-Pagan-Test durchführenbp_test = het_breuschpagan(resid, exog)# Ergebnisse ausgebenlabels = ['LM Statistic', 'LM-Test P-Wert', 'F-Statistic', 'F-Test P-Wert']results = dict(zip(labels, bp_test))for key, value in results.items():    print(f'{key}: {value}')
Schritt 3: Interpretation der Testergebnisse:Es werden vier Werte zurückgegeben: die LM-Statistik, der LM-Test P-Wert, die F-Statistik und der F-Test P-Wert:
  • LM-Statistik: Teststatistik des Lagrange-Multiplier-Tests für Heteroskedastizität.
  • LM-Test P-Wert: P-Wert, der verwendet wird, um die Nullhypothese zu testen.
  • F-Statistik: Teststatistik des alternativen F-Tests für Heteroskedastizität.
  • F-Test P-Wert: P-Wert für die F-Statistik.
Angenommen, die Ausgabe des Tests liefert folgende Werte:
  • LM Statistic: 5.3
  • LM-Test P-Wert: 0.021
  • F-Statistic: 5.1
  • F-Test P-Wert: 0.024
Wir vergleichen den LM-Test P-Wert und den F-Test P-Wert mit einem typischen Signifikanzniveau (z.B. \(\alpha = 0.05\)):
  • Ist der P-Wert kleiner als das Signifikanzniveau, lehnen wir die Nullhypothese ab und schließen auf das Vorliegen von Heteroskedastizität.
In unserem Beispiel sind sowohl der LM-Test P-Wert (0.021) als auch der F-Test P-Wert (0.024) kleiner als 0.05. Daher lehnen wir die Nullhypothese ab, was auf das Vorliegen von Heteroskedastizität hinweist.Schritt 4: Bedeutung von Heteroskedastizität für die Schätzergebnisse:Die Anwesenheit von Heteroskedastizität hat mehrere Implikationen:
  • Die Varianz der Fehlerterme ist nicht konstant, was eine Verletzung einer grundlegenden Annahme des OLS-Modells darstellt.
  • Die Schätzer bleiben unverzerrt und konsistent, sind jedoch nicht effizient. Das bedeutet, dass die Varianz der Schätzer nicht minimiert ist.
  • Die Standardfehler der Koeffizienten sind nicht korrekt, was zu unzuverlässigen Hypothesentests und Konfidenzintervallen führt.
  • Eine Möglichkeit, dies zu korrigieren, besteht darin, robuste Standardfehler zu verwenden oder spezialisierte Modelle zu wählen, die Heteroskedastizität berücksichtigen.

c)

Verwendung von Instrumentenvariablen: Angenommen, Du vermutest, dass die Variable \textit{education} endogen ist, weil sie möglicherweise mit einem unbeobachteten Faktor wie der Fähigkeit (ability) korreliert ist. Erläutere das Konzept der Instrumentenvariablen und wähle eine geeignete Instrumentenvariable für \textit{education}. Schätze das Modell erneut mit Hilfe der 2SLS (Two-Stage Least Squares)-Methode.

Lösung:

Verwendung von Instrumentenvariablen:

Konzept der Instrumentenvariablen (IV):Das Konzept der Instrumentenvariablen (IV) wird verwendet, um das Problem der Endogenität zu lösen. Endogenität liegt vor, wenn eine oder mehrere unabhängige Variablen im Regressionsmodell mit dem Fehlerterm korreliert sind. Dies führt zu verzerrten und inkonsistenten Schätzern. Eine gültige Instrumentenvariable muss zwei Hauptkriterien erfüllen:
  • Relevanz: Die Instrumentenvariable muss stark mit der endogenen Variablen korreliert sein.
  • Exogenität: Die Instrumentenvariable muss unkorreliert mit dem Fehlerterm des ursprünglichen Regressionsmodells sein.
Auswahl einer geeigneten Instrumentenvariable für education:Angenommen, wir vermuten, dass das Bildungsniveau (\textit{education}) endogen ist, weil es möglicherweise mit einem unbeobachteten Faktor wie der Fähigkeit (\textit{ability}) korreliert ist. Eine mögliche Instrumentenvariable könnte die Nähe zu Bildungseinrichtungen während der Kindheit sein. Die Nähe zu Schulen wirkt sich wahrscheinlich stark auf das Bildungsniveau aus (Relevanz), beeinflusst aber nicht direkt das Einkommen, außer durch das Bildungsniveau (Exogenität).Schätzung des Modells mit Hilfe der 2SLS (Two-Stage Least Squares)-Methode:Hier ist der Python-Code, um das Modell mit der 2SLS-Methode zu schätzen, angenommen, die Variable \textit{proximity_schools} ist unsere Instrumentenvariable:
import pandas as pdimport statsmodels.api as smimport statsmodels.formula.api as smf# Annahme: data ist ein pandas DataFrame, das die Daten enthält# Erste Stufe: Schätzer für education unter Verwendung der IVsdata['const'] = 1iv_model = sm.OLS(data['education'], data[['const', 'proximity_schools', 'experience', 'gender']]).fit()data['education_hat'] = iv_model.predict(data[['const', 'proximity_schools', 'experience', 'gender']])# Zweite Stufe: Verwendung der geschätzten Werte von educationsecond_stage_model = sm.OLS(data['income'], data[['const', 'education_hat', 'experience', 'gender']]).fit()print(second_stage_model.summary())
Interpretation der Ergebnisse:Die Ausgabe des Modells liefert Schätzwerte für die Koeffizienten der erklärenden Variablen. Da wir die 2SLS-Methode verwendet haben, sind diese Koeffizienten konsistent, selbst wenn \textit{education} endogen ist.Zusammenfassend bietet die Verwendung von Instrumentenvariablen und der 2SLS-Methode eine Lösung für das Problem der Endogenität, indem sie eine externe Variable verwendet, die stark mit der endogenen Regressor korreliert ist, aber nicht direkt mit dem Fehlerterm des Modells korreliert ist. Dies ermöglicht es, konsistente Schätzungen der Koeffizienten zu erhalten.

Aufgabe 2)

Stellen Sie sich vor, Sie arbeiten für ein Technologieunternehmen, das versucht, Kundenverhalten besser zu verstehen und seine Produkte zu verbessern. Ihr Team hat umfassende Datensätze mit sowohl gekennzeichneten als auch ungekennzeichneten Daten gesammelt, die sowohl über das Kundenkaufverhalten als auch über die Nutzung von Produkten verfügen. Ziel dieser Analyse ist es, das Kundenverhalten zu modellieren, Kundensegmente zu identifizieren und Anomalien zu entdecken. Nutzen Sie diese Informationen, um geeignete Modelle für überwachte und unüberwachte Lernmethoden zu entwerfen und zu bewerten.

a)

Erkläre den Unterschied zwischen überwachten und unüberwachten Lernverfahren im Kontext der Zielstellung deines Unternehmens. Beschreibe die Herausforderungen und Vorteile jeder Methode für das Erreichen der Analysenziele des Unternehmens.

Lösung:

Unterschied zwischen überwachten und unüberwachten Lernverfahren im Unternehmenskontext

Im Kontext eines Technologieunternehmens, das Kundenverhalten analysieren möchte, gibt es verschiedene Ansätze, um dieses Ziel zu erreichen. Zwei der wichtigsten Methoden sind überwachtes Lernen und unüberwachtes Lernen. Lass uns beide Ansätze im Detail betrachten und deren Herausforderungen und Vorteile für die Zielstellung des Unternehmens besprechen.

Überwachtes Lernen

  • Definition: Beim überwachten Lernen werden Modelle mithilfe von gekennzeichneten Datensätzen trainiert. Hierbei sind sowohl die Eingabewerte (z.B. Kundenkaufverhalten, Produktnutzungsdaten) als auch die entsprechenden Ausgabewerte (z.B. ob ein Kunde sich für ein Produkt entschieden hat oder nicht) bekannt.
  • Vorteile:
    • Präzision: Überwachte Lernverfahren können sehr genaue Vorhersagen treffen, wenn ausreichend viele und gut gekennzeichnete Trainingsdaten vorliegen.
    • Erklärbarkeit: Die Modelle sind oft besser nachvollziehbar, da sie auf klar definierten Eingabe-Ausgabe-Paaren basieren.
  • Herausforderungen:
    • Datensammlung: Es kann schwierig und zeitaufwendig sein, ausreichend viele und korrekt gekennzeichnete Daten zu sammeln.
    • Überanpassung: Modelle können übermäßig an die Trainingsdaten angepasst sein und somit schlechter auf neuen, unbekannten Daten performen.

Unüberwachtes Lernen

  • Definition: Beim unüberwachten Lernen werden Modelle mit ungelabelten Datensätzen trainiert. Das Ziel ist es, Muster und Strukturen in den Daten zu entdecken, ohne vorgegebene Ausgabewerte.
  • Vorteile:
    • Flexibilität: Unüberwachtes Lernen kann auf große Mengen von Daten angewendet werden, ohne dass eine aufwendige Datenkennzeichnung erforderlich ist.
    • Entdeckung von unbekannten Mustern: Es ist möglich, völlig neue Erkenntnisse und unerwartete Zusammenhänge in den Daten zu entdecken.
  • Herausforderungen:
    • Interpretierbarkeit: Die Ergebnisse können schwieriger zu interpretieren sein, da keine klaren Ausgabewerte vorliegen.
    • Unsicherheit: Modelle können möglicherweise weniger präzise Vorhersagen machen, da keine spezifischen Zielwerte vorgesehen sind.

Schlussfolgerung

Für die Zielstellung des Technologieunternehmens – nämlich das Modellieren des Kundenverhaltens, die Identifikation von Kundensegmenten und das Entdecken von Anomalien – bietet die Kombination von überwachten und unüberwachten Lernverfahren eine umfassende Lösung. Überwachtes Lernen könnte verwendet werden, um spezifische Vorhersagen zu Kundenkäufen zu machen, während unüberwachtes Lernen helfen kann, unbekannte Muster zu entdecken und die Kunden in verschiedene Segmente einzuteilen. Durch die Nutzung beider Ansätze kann das Unternehmen tiefere Einblicke erhalten und besser fundierte Geschäftsentscheidungen treffen.

b)

Nehmen wir an, Sie möchten ein Modell für überwachte Lernverfahren erstellen, um die zukünftigen Umsätze der Kunden zu prognostizieren. Gegeben seien die Merkmale eines Kundenprofils (wie Alter, Geschlecht, Einkommensgruppe, Anzahl der gekauften Produkte). Welche Art von Modell würden Sie wählen und warum? Formulieren Sie eine mögliche Loss-Funktion und erklären Sie, wie sie zur Optimierung des Modells verwendet würde.

Lösung:

Modellwahl und Loss-Funktion für ein überwachtes Lernverfahren zur Umsatzprognose

Um die zukünftigen Umsätze der Kunden zu prognostizieren, ist die Wahl eines geeigneten Modells und einer passenden Loss-Funktion entscheidend. Gegeben sind verschiedene Merkmale eines Kundenprofils wie Alter, Geschlecht, Einkommensgruppe und Anzahl der gekauften Produkte. Da es sich um ein Regressionsproblem handelt (die Prognose eines numerischen Werts), sind Modelle geeignet, die für Regressionsaufgaben optimiert sind.

Modellwahl: Random Forest Regressor oder Gradient Boosting Regressor

  • Random Forest Regressor:
    • Robustheit und Genauigkeit: Ein Random Forest Regressor kombiniert mehrere Entscheidungsbäume, um die Prognosegenauigkeit zu verbessern und die Gefahr von Überanpassung zu verringern.
    • Handhabung nicht-linearer Beziehungen: Das Modell kann komplexe und nicht-lineare Zusammenhänge in den Daten erfassen.
    • Nachteile: Das Modell ist komplexer und kann rechnerisch intensiver sein als einfache lineare Modelle.
  • Gradient Boosting Regressor:
    • Flexibilität: Dieses Modell kann nicht-lineare Beziehungen zwischen den Merkmalen und der Zielvariable erfassen.
    • Leistungsfähigkeit: Gradient Boosting Regressoren sind bekannt für ihre hohe Prognosegenauigkeit.
    • Nachteile: Sie sind komplexer zu implementieren und benötigen mehr Rechenleistung und Trainingszeit.

Für eine genaue Prognose der zukünftigen Umsätze würde ich den Gradient Boosting Regressor wählen, da er komplexere Zusammenhänge zwischen den Merkmalen und den Umsätzen besser erfasst als einfache lineare Modelle und häufig eine höhere Genauigkeit bietet als der Random Forest Regressor.

Loss-Funktion: Mean Squared Error (MSE)

  • Definition: Die Mean Squared Error (MSE) Loss-Funktion misst den Durchschnitt der quadratischen Abweichungen zwischen den vorhergesagten und den tatsächlichen Werten.
  • Formel: \(\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)
    • \(y_i\): tatsächlicher Wert für die \(i\)-te Beobachtung
    • \(\hat{y}_i\): vorhergesagter Wert für die \(i\)-te Beobachtung
    • \(n\): Anzahl der Beobachtungen

Verwendung der Loss-Funktion zur Optimierung

Die Mean Squared Error (MSE) Loss-Funktion wird verwendet, um die Parameter des Modells während des Trainings anzupassen. Das Ziel ist es, die MSE zu minimieren, was bedeutet, dass die vorhergesagten Werte möglichst nahe an den tatsächlichen Werten liegen. Dies geschieht durch Optimierungsalgorithmen wie Gradientenabstieg, die iterativ die Modellparameter aktualisieren, um die Fehlerfunktion zu minimieren.

Insgesamt ist das Gradient Boosting Regressor Modell in Kombination mit der MSE Loss-Funktion eine leistungsstarke Methode, um zukünftige Umsätze präzise vorherzusagen und somit wertvolle Einblicke in das Kundenverhalten zu gewinnen.

c)

Betrachten Sie die unüberwachten Lernverfahren. Entwickeln Sie einen Plan zur Clusteranalyse der Kundendaten mittels k-Means. Wie würden Sie diese Methode verwenden, um Kundensegmente zu identifizieren, und welche Schritte würden Sie zur Bestimmung der optimalen Anzahl von Clustern unternehmen? Erkläre dabei auch die Rolle von Dimensionsreduktionstechniken wie der Hauptkomponentenanalyse (PCA).

Lösung:

Plan zur Clusteranalyse der Kundendaten mittels k-Means

Für die Clusteranalyse der Kundendaten im Rahmen unüberwachter Lernverfahren bietet sich die Verwendung des k-Means-Algorithmus an. k-Means ist eine beliebte Methode, um Kundensegmente zu identifizieren. Hier sind die Schritte, die zur Implementierung notwendig sind:

Schritte zur Clusteranalyse mit k-Means

  1. Datenvorbereitung:
    • Sammle alle relevanten Merkmale der Kundendaten (Alter, Geschlecht, Einkommensgruppe, Anzahl der gekauften Produkte, etc.).
    • Bereinige die Daten durch Entfernen oder Imputieren unvollständiger Datensätze.
    • Standardisiere die Daten, um sicherzustellen, dass alle Merkmale die gleiche Gewichtung haben. Dies kann z.B. durch Skalierung auf den gleichen Wertebereich erfolgen.
  2. Dimensionsreduktion (optional):
    • Verwende dimensionsreduzierende Techniken wie die Hauptkomponentenanalyse (PCA), um die Anzahl der Merkmale zu reduzieren und die wichtigsten Informationen zu extrahieren.
    • PCA kann helfen, die Berechnungen zu beschleunigen und das Modell robuster gegenüber Rauschen zu machen.
  3. Bestimmung der optimalen Anzahl von Clustern:
    • Verwende die Elbow-Methode: Führe k-Means für eine Reihe von k-Werten (z.B. 1 bis 10) durch und berechne für jedes k den Durchschnitt der quadrierten Abstände (Summe der quadratischen Abstände der Datenpunkte von ihren nächsten Clusterzentren).
    • Identifiziere den “Elbow” in der Kurve, wo die Reduktion der Summe der Abstände signifikant abnimmt. Dieser Punkt kann als die optimale Anzahl von Clustern angesehen werden.
    • Silhouette-Score: Berechne für verschiedene k-Werte den Silhouette-Score, der die Konsistenz innerhalb eines Clusters und die Trennung zwischen Clustern bewertet. Wähle den k-Wert mit dem höchsten Score.
  4. Clusteranalyse mittels k-Means:
    • Übertrage die vorbereiteten und ggf. dimensionsreduzierten Daten in den k-Means-Algorithmus und setze den zuvor bestimmten optimalen k-Wert ein.
    • Lasse den Algorithmus iterieren, bis Konvergenz erreicht ist (d.h., die Clusterzuweisungen ändern sich nicht mehr merklich).
    • Speichere die Clusterzuweisungen und die Position der Clusterzentren.
  5. Interpretation der Ergebnisse:
    • Analysiere die Merkmale der einzelnen Cluster, um charakteristische Muster zu identifizieren (z.B. Altersgruppen, Geschlecht, typische Kaufmuster).
    • Verwende diese Informationen, um maßgeschneiderte Marketingstrategien, Produktangebote oder Kundenbindungsprogramme zu entwickeln.

Rolle der Hauptkomponentenanalyse (PCA)

  • Reduktion der Dimensionalität: PCA reduziert die Anzahl der Merkmale, indem es die wichtigsten Hauptkomponenten extrahiert, die den größten Informationsgehalt der Daten repräsentieren.
  • Verbesserung der Leistung: Durch Reduktion der Dimension kann PCA die Berechnungen im k-Means-Algorithmus beschleunigen und die Anfälligkeit für Überanpassung reduzieren.
  • Visualisierung: PCA ermöglicht die Visualisierung der Daten in niedrigeren Dimensionen (z.B. 2D oder 3D), was bei der Interpretation und Präsentation der Ergebnisse hilfreich sein kann.

Mit diesem Plan kannst du die k-Means-Clusteranalyse effektiv nutzen, um wertvolle Kundensegmente zu identifizieren und tiefe Einblicke in das Kundenverhalten zu gewinnen. Die Kombination von k-Means und PCA bietet dabei eine leistungsstarke Methode zur Analyse komplexer Kundendaten.

Aufgabe 3)

Betrachte ein Unternehmen, das seinen jährlichen Umsatz in Abhängigkeit von den jährlichen Werbeausgaben und der Anzahl der Filialen modellieren möchte. Der jährliche Umsatz wird als abhängige Variable betrachtet, während die jährlichen Werbeausgaben und die Anzahl der Filialen als unabhängige Variablen angesehen werden. Zur Modellierung dieser Beziehungen soll eine lineare und eine nichtlineare Regression durchgeführt werden. Verwende dafür das folgende Datenset:

{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}

a)

Führe eine lineare Regression durch, um den Zusammenhang zwischen dem jährlichen Umsatz (abhängige Variable) und den beiden unabhängigen Variablen (Werbeausgaben und Anzahl der Filialen) zu ermitteln. Schätze dabei die Koeffizienten für die lineare Regressionsformel: \(\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Anzahl der Filialen} + \text{Fehlerterm}\). Interpretiere die geschätzten Koeffizienten.

Lösung:

Lineare Regression: Zusammenhang zwischen jährlichem Umsatz und unabhängigen Variablen

Gegebenes Datenset

{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}

Schritte zur Durchführung der linearen Regression

  • Sammeln der Daten
  • Erstellen eines Regressionsmodells
  • Schätzen der Koeffizienten

1. Sammeln der Daten

Die Daten sind wie folgt gegeben:

  • Jahresumsatz: [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0]
  • Werbeausgaben: [200, 220, 250, 270, 300, 150, 180, 210, 240, 270]
  • AnzahlFilialen: [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]

2. Erstellen eines Regressionsmodells

Wir verwenden die Formel für die multiple lineare Regression:

\[\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Anzahl der Filialen} + \text{Fehlerterm}\]

Wir wollen die Koeffizienten \(\beta_0\), \(\beta_1\), und \(\beta_2\) schätzen.

3. Schätzen der Koeffizienten

Wir verwenden Python und die Bibliothek scikit-learn, um die Koeffizienten zu schätzen:

import numpy as npimport pandas as pdfrom sklearn.linear_model import LinearRegression# Daten vorbereitendata = {    'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0],    'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270],    'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}df = pd.DataFrame(data)# Unabhängige Variablen (X) und abhängige Variable (y) definierenX = df[['Werbeausgaben', 'AnzahlFilialen']]y = df['Jahresumsatz']# Modell erstellen und anpassenmodel = LinearRegression()model.fit(X, y)# Koeffizienten extrahierenbeta_0 = model.intercept_beta_1 = model.coef_[0]beta_2 = model.coef_[1]# Ergebnisse anzeigenprint(f'Intercept (beta_0): {beta_0}')print(f'Koeffizient für Werbeausgaben (beta_1): {beta_1}')print(f'Koeffizient für Anzahl der Filialen (beta_2): {beta_2}')

Interpretation der geschätzten Koeffizienten

  • Intercept (\beta_0): Der geschätzte Intercept (\(\beta_0\)) ist der erwartete Umsatz, wenn sowohl die Werbeausgaben als auch die Anzahl der Filialen gleich null sind.
  • Koeffizient für Werbeausgaben (\(\beta_1\)): Dieser Koeffizient gibt an, wie stark der jährliche Umsatz im Durchschnitt ansteigt, wenn die Werbeausgaben um eine Einheit (z.B. 1 Euro) steigen, unter der Annahme, dass die Anzahl der Filialen konstant bleibt.
  • Koeffizient für Anzahl der Filialen (\(\beta_2\)): Dieser Koeffizient gibt an, wie stark der jährliche Umsatz im Durchschnitt ansteigt, wenn die Anzahl der Filialen um eine Einheit steigt, unter der Annahme, dass die Werbeausgaben konstant bleiben.

b)

Überprüfe die Güte des linearen Modells, indem Du den Bestimmtheitsmaß (R²) und die Residuen analysierst. Erkläre, was die Werte über die Anpassungsfähigkeit des Modells aussagen.

Lösung:

Überprüfung der Güte des linearen Modells

Gegebenes Datenset

{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3,       3, 4, 5, 1, 2, 3, 4, 5]}

Screens zur Bewertung des Modells

  • Bestimmtheitsmaß (R²)
  • Analyse der Residuen

1. Berechnung des Bestimmtheitsmaßes (R²)

Das Bestimmtheitsmaß R² gibt an, wie gut das Modell die abhängige Variable erklären kann. Es berechnet den Anteil der Varianz der abhängigen Variable, der durch die unabhängigen Variablen erklärt wird.

import numpy as npimport pandas as pdfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_score# Daten vorbereitendata = {    'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0],    'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270],    'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}df = pd.DataFrame(data)# Unabhängige Variablen (X) und abhängige Variable (y) definierenX = df[['Werbeausgaben', 'AnzahlFilialen']]y = df['Jahresumsatz']# Modell erstellen und anpassenmodel = LinearRegression()model.fit(X, y)# Vorhersagen berechneny_pred = model.predict(X)# Bestimmtheitsmaß (R²) berechnenr_squared = r2_score(y, y_pred)# Ergebnisse anzeigenprint(f'Bestimmtheitsmaß (R²): {r_squared}')

2. Analyse der Residuen

Die Residuen sind die Differenzen zwischen den beobachteten Werten der abhängigen Variable und den durch das Modell vorhergesagten Werten. Sie helfen zu beurteilen, wie gut das Modell an die Daten angepasst ist.

# Residuen berechnenresiduals = y - y_pred# Residuen anzeigenprint('Residuen:')print(residuals)

Ergebnisse und Interpretation

  • Bestimmtheitsmaß (R²): Ein R²-Wert nahe bei 1 deutet darauf hin, dass das Modell die abhängige Variable sehr gut erklären kann. Ein Wert nahe 0 hingegen bedeutet, dass das Modell die abhängige Variable kaum erklärt.
  • Analyse der Residuen: Wenn die Residuen zufällig und ohne erkennbare Muster verteilt sind, bedeutet dies, dass das Modell die Daten gut angepasst hat. If die Residuen hingegen systematische Muster aufweisen, deutet dies darauf hin, dass das Modell einige Aspekte der Daten nicht erfasst hat.

c)

Führe nun eine nichtlineare Regression durch, indem Du ein quadratisches Modell verwendest, um den Zusammenhang zu modellieren: \(\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Werbeausgaben}^2 + \beta_3 \times \text{Anzahl der Filialen} + \beta_4 \times \text{Anzahl der Filialen}^2 + \text{Fehlerterm}\). Schätze die Koeffizienten für dieses Modell und vergleiche die Anpassung mit der der linearen Regression.

Lösung:

Nichtlineare Regression: Quadratisches Modell

Gegebenes Datenset

{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}

Schritte zur Durchführung der nichtlinearen Regression

  • Sammeln der Daten
  • Erstellen eines quadratischen Regressionsmodells
  • Schätzen der Koeffizienten
  • Vergleich der Anpassung mit der linearen Regression

1. Sammeln der Daten

Die Daten sind wie folgt gegeben:

  • Jahresumsatz: [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0]
  • Werbeausgaben: [200, 220, 250, 270, 300, 150, 180, 210, 240, 270]
  • AnzahlFilialen: [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]

2. Erstellen eines quadratischen Regressionsmodells

Wir verwenden die quadratische Formel:

\[\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Werbeausgaben}^2 + \beta_3 \times \text{Anzahl der Filialen} + \beta_4 \times \text{Anzahl der Filialen}^2 + \text{Fehlerterm}\]

3. Schätzen der Koeffizienten

Wir verwenden Python und die Bibliothek scikit-learn, um die Koeffizienten zu schätzen:

import numpy as npimport pandas as pdfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_score# Daten vorbereitendata = {    'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0],    'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270],    'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}df = pd.DataFrame(data)# Unabhängige Variablen (X) und abhängige Variable (y) definierenX = df[['Werbeausgaben', 'AnzahlFilialen']]y = df['Jahresumsatz']# Polynomiale Features erstellenpoly = PolynomialFeatures(degree=2, include_bias=False)X_poly = poly.fit_transform(X)# Modell erstellen und anpassenmodel = LinearRegression()model.fit(X_poly, y)# Koeffizienten extrahierenbeta_0 = model.intercept_coefs = model.coef_# Ergebnisse anzeigenprint(f'Intercept (beta_0): {beta_0}')print(f'Koeffizienten: {coefs}')# Vorhersagen berechneny_pred = model.predict(X_poly)# Bestimmtheitsmaß (R²) berechnenr_squared = r2_score(y, y_pred)# Ergebnisse anzeigenprint(f'Bestimmtheitsmaß (R²): {r_squared}')

4. Vergleich der Anpassung mit der linearen Regression

Nachdem beide Modelle erstellt und die Koeffizienten geschätzt wurden, verwenden wir das Bestimmtheitsmaß (R²), um zu vergleichen, wie gut die beiden Modelle die abhängige Variable erklären können.

Ergebnisse der linearen Regression:

  • Koeffizienten: Ergebnisse vorheriger linearer Regression
  • Bestimmtheitsmaß (R²) der linearen Regression: Ergebnisse vorheriger linearer Regression

Ergebnisse der quadratischen Regression:

  • Koeffizienten: \[\beta_0\], \[\beta_1\], \[\beta_2\], \[\beta_3\], \[\beta_4\]
  • Bestimmtheitsmaß (R²): Ergebnisse aus dem quadratischen Modell

Interpretation:

Wenn das Bestimmtheitsmaß (R²) der quadratischen Regression höher ist als das R² der linearen Regression, bedeutet dies, dass das quadratische Modell besser an die Daten angepasst ist und mehr Varianz der abhängigen Variable erklärt. Wenn das R² des quadratischen Modells ähnlich oder sogar niedriger ist, bedeutet dies, dass das quadratische Modell keinen signifikanten Vorteil gegenüber dem linearen Modell bietet.

d)

Basierend auf den Ergebnissen der linearen und nichtlinearen Regression, welches Modell würdest Du dem Unternehmen empfehlen, um seinen jährlichen Umsatz zu prognostizieren? Begründe Deine Empfehlung anhand der Koeffizienten, dem Bestimmtheitsmaß und weiteren relevanten Ergebnissen.

Lösung:

Empfehlung für das Modell zur Umsatzprognose

Basierend auf den Ergebnissen der linearen und nichtlinearen Regression werde ich das am besten geeignete Modell für die Prognose des jährlichen Umsatzes des Unternehmens empfehlen. Dazu werde ich die Koeffizienten, das Bestimmtheitsmaß (R²) und weitere relevante Ergebnisse vergleichen und analysieren.

Zusammenfassung der Ergebnisse

Lineare Regression

  • Koeffizienten: \(\beta_0\): Intercept \(\beta_1\): Koeffizient für Werbeausgaben \(\beta_2\): Koeffizient für Anzahl der Filialen
  • Bestimmtheitsmaß (R²): R²-Wert der linearen Regression

Quadratische Regression

  • Koeffizienten: \(\beta_0\): Intercept \(\beta_1\): Koeffizient für Werbeausgaben \(\beta_2\): Koeffizient für Werbeausgaben^2 \(\beta_3\): Koeffizient für Anzahl der Filialen \(\beta_4\): Koeffizient für Anzahl der Filialen^2
  • Bestimmtheitsmaß (R²): R²-Wert der quadratischen Regression

Analyse und Vergleich

Bestimmtheitsmaß (R²)

Das Bestimmtheitsmaß (R²) gibt an, wie gut das Modell die abhängige Variable erklären kann. Ein höherer R²-Wert deutet darauf hin, dass das Modell die Variation im jährlichen Umsatz besser erklärt.

  • R² der linearen Regression: (hier den tatsächlichen Wert einfügen)
  • R² der quadratischen Regression: (hier den tatsächlichen Wert einfügen)

Wenn der R²-Wert der quadratischen Regression signifikant höher ist als der R²-Wert der linearen Regression, deutet dies darauf hin, dass das quadratische Modell besser ist.

Koeffizienten

Die Koeffizienten der Modelle geben an, wie stark die unabhängigen Variablen den jährlichen Umsatz beeinflussen. Bei der Interpretation der Koeffizienten ist es wichtig, sicherzustellen, dass sie sinnvoll und im Kontext des Unternehmens praktikabel sind.

Residuen-Analyse

Eine Analyse der Residuen kann helfen zu beurteilen, ob das Modell systematische Muster in den Daten nicht erfasst hat. Wenn die Residuen zufällig und ohne erkennbare Muster verteilt sind, hat das Modell die Daten gut angepasst.

Empfehlung

Nach der Analyse der Ergebnisse der linearen und nichtlinearen Regression empfehle ich Folgendes:

  • Wenn der R²-Wert der quadratischen Regression signifikant höher ist als der der linearen Regression und die Koeffizienten des quadratischen Modells sinnvoll und interpretierbar sind, dann ist das quadratische Modell besser geeignet für die Umsatzprognose des Unternehmens.
  • Wenn der Unterschied im R²-Wert zwischen den beiden Modellen gering ist, sollten weitere Faktoren wie Modellkomplexität und Interpretierbarkeit der Koeffizienten berücksichtigt werden. In einem solchen Fall könnte das einfachere lineare Modell bevorzugt werden, insbesondere wenn die zusätzlichen Koeffizienten im quadratischen Modell keinen erheblichen Nutzen bringen.
  • Eine gründliche Residuen-Analyse sollte durchgeführt werden, um sicherzustellen, dass das empfohlene Modell keine wesentlichen systematischen Fehler enthält.

Basierend auf den tatsächlichen Werten und den oben genannten Kriterien würde ich das Modell auswählen und dem Unternehmen empfehlen, welches die beste Balance zwischen Anpassungsfähigkeit, Komplexität und Praktikabilität bietet.

Aufgabe 4)

Angenommen, Du führst eine ökonometrische Studie zur Untersuchung der Auswirkung einer Bildungsmaßnahme auf das Einkommensniveau von Teilnehmern durch. Dabei verwendest Du verschiedene statistische Methoden, die in der Kausalitätsanalyse gängig sind. Ein wesentliches Ziel Deiner Untersuchung ist es, den kausalen Effekt der Bildungsmaßnahme auf das Einkommen zu identifizieren und zu quantifizieren. Du überlegst, Instrumentalvariablen (IV), Differenzen-in-Differenzen (DiD) und Regression Diskontinuitätsdesign (RDD) einzusetzen, um saubere Schätzungen zu erhalten.

a)

Erläutere das Konzept der Instrumentalvariablen (IV). Welche Bedingungen müssen erfüllt sein, damit eine Variable als Instrumentalvariable geeignet ist? Verwende hierzu ein passendes Beispiel aus der Bildungsökonomie.

Lösung:

Instrumentalvariablen (IV) und ihre Voraussetzungen

Das Konzept der Instrumentalvariablen (IV) wird in der Ökonometrie verwendet, um kausale Effekte zu identifizieren, wenn die unabhängige Variable nicht exogen ist, d.h., wenn sie möglicherweise mit dem Fehlerterm korreliert ist. Diese Korrelation kann zu verzerrten Schätzungen führen. Eine Instrumentalvariable hilft, dieses Problem zu lösen, indem sie als Proxy für die problematische unabhängige Variable dient und Exogenität sicherstellt.

Damit eine Variable als Instrumentalvariable geeignet ist, müssen folgende Bedingungen erfüllt sein:

  • Relevanz: Die Instrumentalvariable muss stark mit der erklärenden Variablen (also der unabhängigen Variable, deren Effekt wir untersuchen wollen) korreliert sein. Diese Korrelation stellt sicher, dass die IV Informationen über die erklärende Variable liefert.
  • Exogenität: Die Instrumentalvariable darf nicht mit dem Fehlerterm der Regression korreliert sein. Das bedeutet, sie darf keinerlei direkte Beziehung zur abhängigen Variable (z.B. Einkommen) haben, außer durch ihre Wirkung auf die erklärende Variable (Bildungsmaßnahme).

Ein Beispiel aus der Bildungsökonomie:

Angenommen, wir untersuchen den kausalen Effekt der Teilnahme an einem College-Programm auf das spätere Einkommen (Y). Da die Entscheidung, das College zu besuchen, möglicherweise von Faktoren beeinflusst wird, die auch das Einkommen beeinflussen (z.B. individuellen Fähigkeiten oder familiärem Hintergrund), könnte eine einfache Regression zu verzerrten Ergebnissen führen.

Eine Möglichkeit zur Lösung dieses Problems besteht darin, eine Instrumentalvariable einzusetzen. Eine mögliche IV könnte die Entfernung zum nächstgelegenen College sein. Die Entfernung erfüllt oft die Bedingungen:

  • Relevanz: Die Entfernung zum nächstgelegenen College hat typischerweise einen Einfluss darauf, ob jemand das College besucht oder nicht. Schüler, die näher an einem College wohnen, sind möglicherweise eher geneigt, dieses zu besuchen.
  • Exogenität: Solange die Wahl des Wohnorts nicht direkt durch erwartetes Einkommen beeinflusst wird, sollte die Entfernung zum College unabhängig von den persönlichen Charakteristika sein, die das spätere Einkommen beeinflussen. Das bedeutet, die Entfernung wirkt nur über die Entscheidung, das College zu besuchen, auf das Einkommen.

Durch den Einsatz der Instrumentalvariablen-Methode könnten wir somit eine weniger verzerrte Schätzung des kausalen Effekts der College-Teilnahme auf das Einkommen erhalten.

c)

Erkläre das Regression Diskontinuitätsdesign (RDD). Welche Vorteile bietet diese Methode im Vergleich zu anderen kausalen Schätzmethoden? Leite mathematisch her, wie man den kausalen Effekt der Bildungsmaßnahme schätzen kann, wenn nur Teilnehmer mit bestimmten Schwellenwerten zugelassen wurden.

Lösung:

Erklärung des Regression Diskontinuitätsdesigns (RDD)

Das Regression Diskontinuitätsdesign (RDD) ist eine Methode zur Kausalanalyse, die verwendet wird, wenn die Zuweisung zu einer Behandlung durch eine Schwellenwertregelung erfolgt. Das bedeutet, dass nur Teilnehmer, deren Wert einer bestimmten Variablen (z. B. Testergebnis) über oder unter einem Schwellenwert liegt, die Behandlung erhalten. Teilnehmer knapp über und knapp unter dem Schwellenwert sind hinsichtlich beobachtbarer und unbeobachtbarer Merkmale vergleichbar, was RDD zu einer quasi-experimentellen Methode macht.

Vorteile des RDD im Vergleich zu anderen Methoden

  • Interne Validität: Unter den richtigen Bedingungen bietet RDD eine hohe interne Validität, da sie kausale Schätzungen liefert, die nahe an einem randomisierten Experiment liegen.
  • Vermeidung von Verzerrungen: RDD minimiert Verzerrungen, die aus unbeobachteten konfundierenden Variablen resultieren, indem die lokalen Unterschiede um den Schwellenwert herum untersucht werden.

Mathematische Herleitung des kausalen Effekts

Angenommen, die Bildungsmaßnahme (D) wird den Teilnehmern (i) gewährt, deren Wert einer Zuordnungsvariable (X) einen Schwellenwert (c) überschreitet. Das heißt, Teilnehmer, deren Wert (X) >= c liegt, erhalten die Maßnahme (D = 1), während diejenigen darunter die Maßnahme nicht erhalten (D = 0).

Die kausale Wirkung der Bildungsmaßnahme auf das Einkommen (Y) kann durch den Diskontinuitätseffekt an dem Schwellenwert (c) geschätzt werden:

Wenn wir die Einkommensfunktion als Y schreiben:

 \[Y_i = \beta_0 + \beta_1 D_i + f(X_i) + u_i\] 

wobei:

  • \(Y_i\): das Einkommen von Person i
  • \(D_i\): eine Dummyvariable, die 1 ist, wenn \(X_i\) >= c und 0, wenn \(X_i\) < c
  • \(f(X_i)\): eine unbekannte, stetige Funktion des Zuordnungswertes
  • \(u_i\): der Fehlerterm

\(\beta_1\) stellt die Diskontinuität an der Schwelle (c) dar, die äquivalent zur kausalen Wirkung der Bildungsmaßnahme ist.

Für den RDD-Ansatz schätzen wir das Modell an der Schwelle:

 \[\beta_1 = \lim_{X_i \to c^+} \mathbb{E}[Y_i | X_i = c] - \lim_{X_i \to c^-} \mathbb{E}[Y_i | X_i = c]\] 

Dies misst den Sprung im erwarteten Einkommen genau an der Schwelle c, welcher die kausale Wirkung der Maßnahme darstellt.

Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden