Lerninhalte finden
Features
Entdecke
© StudySmarter 2024, all rights reserved.
Datensatz, Regressionsmodell und Schätzung: Du hast Zugang zu einem Querschnittsdatensatz, der Informationen über 1000 individuelle Beobachtungen enthält. Jede Beobachtung stellt einen Arbeitnehmer dar, und der Datensatz enthält Variablen wie das monatliche Einkommen (\textit{income}), das Bildungsniveau in Jahren (\textit{education}), die Berufserfahrung in Jahren (\textit{experience}) und das Geschlecht (\textit{gender}), wobei 0 für männlich und 1 für weiblich steht. Ziel ist es, die Determinanten des Einkommens zu analysieren.Angenommen, das ökonomische Modell, das das Monatseinkommen erklärt, ist:\[income_i = \beta_0 + \beta_1 \textit{education}_i + \beta_2 \textit{experience}_i + \beta_3 \textit{gender}_i + \textit{u}_i\]
Schätzungsaufgabe: Schätze das obige Regressionsmodell mit einer einfachen linearen Regression mit OLS (Ordinary Least Squares) und interpretiere die geschätzten Koeffizienten. Was sagen die Koeffizienten über den Einfluss der Bildungsjahre, der Berufserfahrung und des Geschlechts auf das Einkommen aus?
Lösung:
Schritt 3: Interpretation der geschätzten Koeffizienten:Angenommen, die Ausgabe des Modells liefert folgende Koeffizienten:import statsmodels.api as sm
import pandas as pd
# Annahme: data ist ein pandas DataFrame, das die Daten enthält
X = data[['education', 'experience', 'gender']]
y = data['income']
X = sm.add_constant(X) # Konstante (Intercept) hinzufügen
# OLS Regression schätzen
model = sm.OLS(y, X).fit()
print(model.summary())
Diagnose von Heteroskedastizität: Überprüfe, ob Heteroskedastizität in Deinem geschätzten Modell vorliegt. Benutze dafür den Breusch-Pagan-Test und formuliere die Hypothesen. Was würde das Vorliegen von Heteroskedastizität für die Schätzergebnisse bedeuten?
Lösung:
import statsmodels.api as smfrom statsmodels.stats.diagnostic import het_breuschpagan# Annahme: 'model' ist das zuvor geschätzte OLS-Modell# Residuuen und die erklärenden Variablen vom Modell heranziehenresid = model.residexog = model.model.exog# Breusch-Pagan-Test durchführenbp_test = het_breuschpagan(resid, exog)# Ergebnisse ausgebenlabels = ['LM Statistic', 'LM-Test P-Wert', 'F-Statistic', 'F-Test P-Wert']results = dict(zip(labels, bp_test))for key, value in results.items(): print(f'{key}: {value}')
Schritt 3: Interpretation der Testergebnisse:Es werden vier Werte zurückgegeben: die LM-Statistik, der LM-Test P-Wert, die F-Statistik und der F-Test P-Wert:Verwendung von Instrumentenvariablen: Angenommen, Du vermutest, dass die Variable \textit{education} endogen ist, weil sie möglicherweise mit einem unbeobachteten Faktor wie der Fähigkeit (ability) korreliert ist. Erläutere das Konzept der Instrumentenvariablen und wähle eine geeignete Instrumentenvariable für \textit{education}. Schätze das Modell erneut mit Hilfe der 2SLS (Two-Stage Least Squares)-Methode.
Lösung:
import pandas as pdimport statsmodels.api as smimport statsmodels.formula.api as smf# Annahme: data ist ein pandas DataFrame, das die Daten enthält# Erste Stufe: Schätzer für education unter Verwendung der IVsdata['const'] = 1iv_model = sm.OLS(data['education'], data[['const', 'proximity_schools', 'experience', 'gender']]).fit()data['education_hat'] = iv_model.predict(data[['const', 'proximity_schools', 'experience', 'gender']])# Zweite Stufe: Verwendung der geschätzten Werte von educationsecond_stage_model = sm.OLS(data['income'], data[['const', 'education_hat', 'experience', 'gender']]).fit()print(second_stage_model.summary())
Interpretation der Ergebnisse:Die Ausgabe des Modells liefert Schätzwerte für die Koeffizienten der erklärenden Variablen. Da wir die 2SLS-Methode verwendet haben, sind diese Koeffizienten konsistent, selbst wenn \textit{education} endogen ist.Zusammenfassend bietet die Verwendung von Instrumentenvariablen und der 2SLS-Methode eine Lösung für das Problem der Endogenität, indem sie eine externe Variable verwendet, die stark mit der endogenen Regressor korreliert ist, aber nicht direkt mit dem Fehlerterm des Modells korreliert ist. Dies ermöglicht es, konsistente Schätzungen der Koeffizienten zu erhalten.Stellen Sie sich vor, Sie arbeiten für ein Technologieunternehmen, das versucht, Kundenverhalten besser zu verstehen und seine Produkte zu verbessern. Ihr Team hat umfassende Datensätze mit sowohl gekennzeichneten als auch ungekennzeichneten Daten gesammelt, die sowohl über das Kundenkaufverhalten als auch über die Nutzung von Produkten verfügen. Ziel dieser Analyse ist es, das Kundenverhalten zu modellieren, Kundensegmente zu identifizieren und Anomalien zu entdecken. Nutzen Sie diese Informationen, um geeignete Modelle für überwachte und unüberwachte Lernmethoden zu entwerfen und zu bewerten.
Erkläre den Unterschied zwischen überwachten und unüberwachten Lernverfahren im Kontext der Zielstellung deines Unternehmens. Beschreibe die Herausforderungen und Vorteile jeder Methode für das Erreichen der Analysenziele des Unternehmens.
Lösung:
Im Kontext eines Technologieunternehmens, das Kundenverhalten analysieren möchte, gibt es verschiedene Ansätze, um dieses Ziel zu erreichen. Zwei der wichtigsten Methoden sind überwachtes Lernen und unüberwachtes Lernen. Lass uns beide Ansätze im Detail betrachten und deren Herausforderungen und Vorteile für die Zielstellung des Unternehmens besprechen.
Für die Zielstellung des Technologieunternehmens – nämlich das Modellieren des Kundenverhaltens, die Identifikation von Kundensegmenten und das Entdecken von Anomalien – bietet die Kombination von überwachten und unüberwachten Lernverfahren eine umfassende Lösung. Überwachtes Lernen könnte verwendet werden, um spezifische Vorhersagen zu Kundenkäufen zu machen, während unüberwachtes Lernen helfen kann, unbekannte Muster zu entdecken und die Kunden in verschiedene Segmente einzuteilen. Durch die Nutzung beider Ansätze kann das Unternehmen tiefere Einblicke erhalten und besser fundierte Geschäftsentscheidungen treffen.
Nehmen wir an, Sie möchten ein Modell für überwachte Lernverfahren erstellen, um die zukünftigen Umsätze der Kunden zu prognostizieren. Gegeben seien die Merkmale eines Kundenprofils (wie Alter, Geschlecht, Einkommensgruppe, Anzahl der gekauften Produkte). Welche Art von Modell würden Sie wählen und warum? Formulieren Sie eine mögliche Loss-Funktion und erklären Sie, wie sie zur Optimierung des Modells verwendet würde.
Lösung:
Um die zukünftigen Umsätze der Kunden zu prognostizieren, ist die Wahl eines geeigneten Modells und einer passenden Loss-Funktion entscheidend. Gegeben sind verschiedene Merkmale eines Kundenprofils wie Alter, Geschlecht, Einkommensgruppe und Anzahl der gekauften Produkte. Da es sich um ein Regressionsproblem handelt (die Prognose eines numerischen Werts), sind Modelle geeignet, die für Regressionsaufgaben optimiert sind.
Für eine genaue Prognose der zukünftigen Umsätze würde ich den Gradient Boosting Regressor wählen, da er komplexere Zusammenhänge zwischen den Merkmalen und den Umsätzen besser erfasst als einfache lineare Modelle und häufig eine höhere Genauigkeit bietet als der Random Forest Regressor.
Die Mean Squared Error (MSE) Loss-Funktion wird verwendet, um die Parameter des Modells während des Trainings anzupassen. Das Ziel ist es, die MSE zu minimieren, was bedeutet, dass die vorhergesagten Werte möglichst nahe an den tatsächlichen Werten liegen. Dies geschieht durch Optimierungsalgorithmen wie Gradientenabstieg, die iterativ die Modellparameter aktualisieren, um die Fehlerfunktion zu minimieren.
Insgesamt ist das Gradient Boosting Regressor Modell in Kombination mit der MSE Loss-Funktion eine leistungsstarke Methode, um zukünftige Umsätze präzise vorherzusagen und somit wertvolle Einblicke in das Kundenverhalten zu gewinnen.
Betrachten Sie die unüberwachten Lernverfahren. Entwickeln Sie einen Plan zur Clusteranalyse der Kundendaten mittels k-Means. Wie würden Sie diese Methode verwenden, um Kundensegmente zu identifizieren, und welche Schritte würden Sie zur Bestimmung der optimalen Anzahl von Clustern unternehmen? Erkläre dabei auch die Rolle von Dimensionsreduktionstechniken wie der Hauptkomponentenanalyse (PCA).
Lösung:
Für die Clusteranalyse der Kundendaten im Rahmen unüberwachter Lernverfahren bietet sich die Verwendung des k-Means-Algorithmus an. k-Means ist eine beliebte Methode, um Kundensegmente zu identifizieren. Hier sind die Schritte, die zur Implementierung notwendig sind:
Mit diesem Plan kannst du die k-Means-Clusteranalyse effektiv nutzen, um wertvolle Kundensegmente zu identifizieren und tiefe Einblicke in das Kundenverhalten zu gewinnen. Die Kombination von k-Means und PCA bietet dabei eine leistungsstarke Methode zur Analyse komplexer Kundendaten.
Betrachte ein Unternehmen, das seinen jährlichen Umsatz in Abhängigkeit von den jährlichen Werbeausgaben und der Anzahl der Filialen modellieren möchte. Der jährliche Umsatz wird als abhängige Variable betrachtet, während die jährlichen Werbeausgaben und die Anzahl der Filialen als unabhängige Variablen angesehen werden. Zur Modellierung dieser Beziehungen soll eine lineare und eine nichtlineare Regression durchgeführt werden. Verwende dafür das folgende Datenset:
{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}
Führe eine lineare Regression durch, um den Zusammenhang zwischen dem jährlichen Umsatz (abhängige Variable) und den beiden unabhängigen Variablen (Werbeausgaben und Anzahl der Filialen) zu ermitteln. Schätze dabei die Koeffizienten für die lineare Regressionsformel: \(\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Anzahl der Filialen} + \text{Fehlerterm}\). Interpretiere die geschätzten Koeffizienten.
Lösung:
{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}
Die Daten sind wie folgt gegeben:
Wir verwenden die Formel für die multiple lineare Regression:
\[\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Anzahl der Filialen} + \text{Fehlerterm}\]
Wir wollen die Koeffizienten \(\beta_0\), \(\beta_1\), und \(\beta_2\) schätzen.
Wir verwenden Python und die Bibliothek scikit-learn, um die Koeffizienten zu schätzen:
import numpy as npimport pandas as pdfrom sklearn.linear_model import LinearRegression# Daten vorbereitendata = { 'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}df = pd.DataFrame(data)# Unabhängige Variablen (X) und abhängige Variable (y) definierenX = df[['Werbeausgaben', 'AnzahlFilialen']]y = df['Jahresumsatz']# Modell erstellen und anpassenmodel = LinearRegression()model.fit(X, y)# Koeffizienten extrahierenbeta_0 = model.intercept_beta_1 = model.coef_[0]beta_2 = model.coef_[1]# Ergebnisse anzeigenprint(f'Intercept (beta_0): {beta_0}')print(f'Koeffizient für Werbeausgaben (beta_1): {beta_1}')print(f'Koeffizient für Anzahl der Filialen (beta_2): {beta_2}')
Überprüfe die Güte des linearen Modells, indem Du den Bestimmtheitsmaß (R²) und die Residuen analysierst. Erkläre, was die Werte über die Anpassungsfähigkeit des Modells aussagen.
Lösung:
{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}
Das Bestimmtheitsmaß R² gibt an, wie gut das Modell die abhängige Variable erklären kann. Es berechnet den Anteil der Varianz der abhängigen Variable, der durch die unabhängigen Variablen erklärt wird.
import numpy as npimport pandas as pdfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_score# Daten vorbereitendata = { 'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}df = pd.DataFrame(data)# Unabhängige Variablen (X) und abhängige Variable (y) definierenX = df[['Werbeausgaben', 'AnzahlFilialen']]y = df['Jahresumsatz']# Modell erstellen und anpassenmodel = LinearRegression()model.fit(X, y)# Vorhersagen berechneny_pred = model.predict(X)# Bestimmtheitsmaß (R²) berechnenr_squared = r2_score(y, y_pred)# Ergebnisse anzeigenprint(f'Bestimmtheitsmaß (R²): {r_squared}')
Die Residuen sind die Differenzen zwischen den beobachteten Werten der abhängigen Variable und den durch das Modell vorhergesagten Werten. Sie helfen zu beurteilen, wie gut das Modell an die Daten angepasst ist.
# Residuen berechnenresiduals = y - y_pred# Residuen anzeigenprint('Residuen:')print(residuals)
Führe nun eine nichtlineare Regression durch, indem Du ein quadratisches Modell verwendest, um den Zusammenhang zu modellieren: \(\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Werbeausgaben}^2 + \beta_3 \times \text{Anzahl der Filialen} + \beta_4 \times \text{Anzahl der Filialen}^2 + \text{Fehlerterm}\). Schätze die Koeffizienten für dieses Modell und vergleiche die Anpassung mit der der linearen Regression.
Lösung:
{'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}
Die Daten sind wie folgt gegeben:
Wir verwenden die quadratische Formel:
\[\text{Umsatz} = \beta_0 + \beta_1 \times \text{Werbeausgaben} + \beta_2 \times \text{Werbeausgaben}^2 + \beta_3 \times \text{Anzahl der Filialen} + \beta_4 \times \text{Anzahl der Filialen}^2 + \text{Fehlerterm}\]
Wir verwenden Python und die Bibliothek scikit-learn, um die Koeffizienten zu schätzen:
import numpy as npimport pandas as pdfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_score# Daten vorbereitendata = { 'Jahresumsatz': [4.2, 5.4, 6.8, 8.1, 9.6, 3.3, 4.7, 6.1, 7.5, 9.0], 'Werbeausgaben': [200, 220, 250, 270, 300, 150, 180, 210, 240, 270], 'AnzahlFilialen': [2, 3, 3, 4, 5, 1, 2, 3, 4, 5]}df = pd.DataFrame(data)# Unabhängige Variablen (X) und abhängige Variable (y) definierenX = df[['Werbeausgaben', 'AnzahlFilialen']]y = df['Jahresumsatz']# Polynomiale Features erstellenpoly = PolynomialFeatures(degree=2, include_bias=False)X_poly = poly.fit_transform(X)# Modell erstellen und anpassenmodel = LinearRegression()model.fit(X_poly, y)# Koeffizienten extrahierenbeta_0 = model.intercept_coefs = model.coef_# Ergebnisse anzeigenprint(f'Intercept (beta_0): {beta_0}')print(f'Koeffizienten: {coefs}')# Vorhersagen berechneny_pred = model.predict(X_poly)# Bestimmtheitsmaß (R²) berechnenr_squared = r2_score(y, y_pred)# Ergebnisse anzeigenprint(f'Bestimmtheitsmaß (R²): {r_squared}')
Nachdem beide Modelle erstellt und die Koeffizienten geschätzt wurden, verwenden wir das Bestimmtheitsmaß (R²), um zu vergleichen, wie gut die beiden Modelle die abhängige Variable erklären können.
Wenn das Bestimmtheitsmaß (R²) der quadratischen Regression höher ist als das R² der linearen Regression, bedeutet dies, dass das quadratische Modell besser an die Daten angepasst ist und mehr Varianz der abhängigen Variable erklärt. Wenn das R² des quadratischen Modells ähnlich oder sogar niedriger ist, bedeutet dies, dass das quadratische Modell keinen signifikanten Vorteil gegenüber dem linearen Modell bietet.
Basierend auf den Ergebnissen der linearen und nichtlinearen Regression, welches Modell würdest Du dem Unternehmen empfehlen, um seinen jährlichen Umsatz zu prognostizieren? Begründe Deine Empfehlung anhand der Koeffizienten, dem Bestimmtheitsmaß und weiteren relevanten Ergebnissen.
Lösung:
Basierend auf den Ergebnissen der linearen und nichtlinearen Regression werde ich das am besten geeignete Modell für die Prognose des jährlichen Umsatzes des Unternehmens empfehlen. Dazu werde ich die Koeffizienten, das Bestimmtheitsmaß (R²) und weitere relevante Ergebnisse vergleichen und analysieren.
Das Bestimmtheitsmaß (R²) gibt an, wie gut das Modell die abhängige Variable erklären kann. Ein höherer R²-Wert deutet darauf hin, dass das Modell die Variation im jährlichen Umsatz besser erklärt.
Wenn der R²-Wert der quadratischen Regression signifikant höher ist als der R²-Wert der linearen Regression, deutet dies darauf hin, dass das quadratische Modell besser ist.
Die Koeffizienten der Modelle geben an, wie stark die unabhängigen Variablen den jährlichen Umsatz beeinflussen. Bei der Interpretation der Koeffizienten ist es wichtig, sicherzustellen, dass sie sinnvoll und im Kontext des Unternehmens praktikabel sind.
Eine Analyse der Residuen kann helfen zu beurteilen, ob das Modell systematische Muster in den Daten nicht erfasst hat. Wenn die Residuen zufällig und ohne erkennbare Muster verteilt sind, hat das Modell die Daten gut angepasst.
Nach der Analyse der Ergebnisse der linearen und nichtlinearen Regression empfehle ich Folgendes:
Basierend auf den tatsächlichen Werten und den oben genannten Kriterien würde ich das Modell auswählen und dem Unternehmen empfehlen, welches die beste Balance zwischen Anpassungsfähigkeit, Komplexität und Praktikabilität bietet.
Angenommen, Du führst eine ökonometrische Studie zur Untersuchung der Auswirkung einer Bildungsmaßnahme auf das Einkommensniveau von Teilnehmern durch. Dabei verwendest Du verschiedene statistische Methoden, die in der Kausalitätsanalyse gängig sind. Ein wesentliches Ziel Deiner Untersuchung ist es, den kausalen Effekt der Bildungsmaßnahme auf das Einkommen zu identifizieren und zu quantifizieren. Du überlegst, Instrumentalvariablen (IV), Differenzen-in-Differenzen (DiD) und Regression Diskontinuitätsdesign (RDD) einzusetzen, um saubere Schätzungen zu erhalten.
Erläutere das Konzept der Instrumentalvariablen (IV). Welche Bedingungen müssen erfüllt sein, damit eine Variable als Instrumentalvariable geeignet ist? Verwende hierzu ein passendes Beispiel aus der Bildungsökonomie.
Lösung:
Instrumentalvariablen (IV) und ihre Voraussetzungen
Das Konzept der Instrumentalvariablen (IV) wird in der Ökonometrie verwendet, um kausale Effekte zu identifizieren, wenn die unabhängige Variable nicht exogen ist, d.h., wenn sie möglicherweise mit dem Fehlerterm korreliert ist. Diese Korrelation kann zu verzerrten Schätzungen führen. Eine Instrumentalvariable hilft, dieses Problem zu lösen, indem sie als Proxy für die problematische unabhängige Variable dient und Exogenität sicherstellt.
Damit eine Variable als Instrumentalvariable geeignet ist, müssen folgende Bedingungen erfüllt sein:
Ein Beispiel aus der Bildungsökonomie:
Angenommen, wir untersuchen den kausalen Effekt der Teilnahme an einem College-Programm auf das spätere Einkommen (Y). Da die Entscheidung, das College zu besuchen, möglicherweise von Faktoren beeinflusst wird, die auch das Einkommen beeinflussen (z.B. individuellen Fähigkeiten oder familiärem Hintergrund), könnte eine einfache Regression zu verzerrten Ergebnissen führen.
Eine Möglichkeit zur Lösung dieses Problems besteht darin, eine Instrumentalvariable einzusetzen. Eine mögliche IV könnte die Entfernung zum nächstgelegenen College sein. Die Entfernung erfüllt oft die Bedingungen:
Durch den Einsatz der Instrumentalvariablen-Methode könnten wir somit eine weniger verzerrte Schätzung des kausalen Effekts der College-Teilnahme auf das Einkommen erhalten.
Erkläre das Regression Diskontinuitätsdesign (RDD). Welche Vorteile bietet diese Methode im Vergleich zu anderen kausalen Schätzmethoden? Leite mathematisch her, wie man den kausalen Effekt der Bildungsmaßnahme schätzen kann, wenn nur Teilnehmer mit bestimmten Schwellenwerten zugelassen wurden.
Lösung:
Erklärung des Regression Diskontinuitätsdesigns (RDD)
Das Regression Diskontinuitätsdesign (RDD) ist eine Methode zur Kausalanalyse, die verwendet wird, wenn die Zuweisung zu einer Behandlung durch eine Schwellenwertregelung erfolgt. Das bedeutet, dass nur Teilnehmer, deren Wert einer bestimmten Variablen (z. B. Testergebnis) über oder unter einem Schwellenwert liegt, die Behandlung erhalten. Teilnehmer knapp über und knapp unter dem Schwellenwert sind hinsichtlich beobachtbarer und unbeobachtbarer Merkmale vergleichbar, was RDD zu einer quasi-experimentellen Methode macht.
Vorteile des RDD im Vergleich zu anderen Methoden
Mathematische Herleitung des kausalen Effekts
Angenommen, die Bildungsmaßnahme (D) wird den Teilnehmern (i) gewährt, deren Wert einer Zuordnungsvariable (X) einen Schwellenwert (c) überschreitet. Das heißt, Teilnehmer, deren Wert (X) >= c liegt, erhalten die Maßnahme (D = 1), während diejenigen darunter die Maßnahme nicht erhalten (D = 0).
Die kausale Wirkung der Bildungsmaßnahme auf das Einkommen (Y) kann durch den Diskontinuitätseffekt an dem Schwellenwert (c) geschätzt werden:
Wenn wir die Einkommensfunktion als Y schreiben:
\[Y_i = \beta_0 + \beta_1 D_i + f(X_i) + u_i\]
wobei:
\(\beta_1\) stellt die Diskontinuität an der Schwelle (c) dar, die äquivalent zur kausalen Wirkung der Bildungsmaßnahme ist.
Für den RDD-Ansatz schätzen wir das Modell an der Schwelle:
\[\beta_1 = \lim_{X_i \to c^+} \mathbb{E}[Y_i | X_i = c] - \lim_{X_i \to c^-} \mathbb{E}[Y_i | X_i = c]\]
Dies misst den Sprung im erwarteten Einkommen genau an der Schwelle c, welcher die kausale Wirkung der Maßnahme darstellt.
Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.
Kostenloses Konto erstellenDu hast bereits ein Konto? Anmelden