Econometrics - Cheatsheet
Einfache lineare Regression
Definition:
Methode zur Analyse der Beziehung zwischen einer abhängigen und einer unabhängigen Variable.
Details:
- Ziel: Schätzung der Parameter einer linearen Funktion \( Y = \beta_0 + \beta_1 X + \epsilon \)
- \(Y\): Abhängige Variable, \(X\): Unabhängige Variable
- \(\beta_0\): Achsenabschnitt, \(\beta_1\): Steigungskoeffizient
- \(\epsilon\): Störterm oder Fehlerterm
- Schätzung der Koeffizienten mittels Methode der kleinsten Quadrate (OLS)
- Formel für \(\beta_1\): \[ \beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} \]
- Formel für \(\beta_0\): \[ \beta_0 = \bar{Y} - \beta_1 \bar{X} \]
- Relevante Teststatistiken: \( R^2 \), t-Test für Koeffizienten
Mehrfache lineare Regression
Definition:
Erweiterung der einfachen linearen Regression auf mehr als eine unabhängige Variable.
Details:
- Modell: \[Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p + \varepsilon\]
- Schätzung der Koeffizienten mit Methode der kleinsten Quadrate (OLS): \[\hat{\beta} = (X'X)^{-1}X'Y\]
- Voraussetzungen: linearer Zusammenhang, Homoskedastizität, keine perfekte Multikollinearität, Normalverteilung der Residuen
- Häufige Prüfungen: t-Test für einzelne Koeffizienten, F-Test für Gesamtmodell
ARIMA-Modelle (AutoRegressive Integrated Moving Average)
Definition:
ARIMA-Modell zur Analyse und Prognose zeitlicher Datenreihen. Modell kombiniert autoregressive (AR) und gleitende Durchschnittsmodelle (MA) und integriert Differenzierung, um Nichtstationarität zu entfernen.
Details:
- Mathematische Darstellung: \[ Y_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + ... + \phi_p Y_{t-p} + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + ... + \theta_q \epsilon_{t-q} + \epsilon_t \]
- Begriffe:
- \( p \): Ordnung des autoregressiven Teils
- \( d \): Anzahl der Differenzierungen zur Stationarität
- \( q \): Ordnung des gleitenden Durchschnittsteils
- \( \phi \): AR-Parameter
- \( \theta \): MA-Parameter
- \( \epsilon_t \): Fehlerterm
- Erforderliche Schritte:
- Identifikation: Bestimme \( p, d, q \)
- Schätzung: Parameter mit MLE oder OLS schätzen
- Diagnose: Überprüfe Modellfitness (Residualanalyse, AIC, BIC)
- Anwendung: Ideal für kurzfristige Prognosen, wenn saisonale Effekte keine Rolle spielen.
Stationarität und nicht-stationäre Daten
Definition:
Stationarität: Zeitreihen, deren statistische Eigenschaften sich im Zeitverlauf nicht ändern. Nicht-stationäre Daten: Zeitreihen, deren statistische Eigenschaften sich im Zeitverlauf ändern.
Details:
- Stationarität: Konstante Mittelwerte, Varianzen und Kovarianzen über die Zeit.
- Tests: Augmented Dickey-Fuller (ADF), Phillips-Perron (PP).
- Umwandlung nicht-stationärer Daten: Differenzierung oder Transformation.
- Modellierung: ARIMA-Modelle für nicht-stationäre Daten.
Feste und zufällige Effekte Modelle
Definition:
Feste Effekte Modelle berücksichtigen unveränderliche Unterschiede zwischen Einheiten, während Zufällige Effekte Modelle Unterschiede als zufällig behandelt werden.
Details:
- Feste Effekte (FE): Berücksichtigt heterogene Einheiten, indem es für jede Einheit einen eigenen Schnittstellenwert erlaubt.
- Zufällige Effekte (RE): Unterschiede zwischen Einheiten als zufällig angenommen und in den Fehlerterm integriert.
- FE-Modell: \[ Y_{it} = \beta_0 + \beta_1 X_{it} + u_i + \tau_t + \tau_{it} \]- Struktureller Fehler \( \tau \) schließt unbeobachtete Einheiten und Zeiteffekte ein.
- RE-Modell: \[ Y_{it} = \beta_0 + \beta_1 X_{it} + u_i + u_{it} \]- \( u_i \) repräsentiert zufällige Effekte, \( u_{it} \) ist der Fehlerterm.
- Hausman-Test: Überprüfung, ob Unterschiede zwischen FE- und RE-Modellen signifikant sind (Test auf Korrelation zwischen Regressoren und zufälligen Effekten).
Endogenität und Instrumentalvariablen in Paneldaten
Definition:
Endogenität entsteht, wenn erklärende Variable mit dem Fehlerterm korreliert ist. Instrumentalvariablen (IV) helfen, Kausalität in Paneldaten richtig zu identifizieren.
Details:
- Endogene Variablen: Korrelation mit Störterm
- Instrumentalvariablen: Keine Korrelation mit Störterm, aber Korrelation mit endogener Variable
- IV-Schätzer: \(\beta_{IV} = (Z'X)^{-1}(Z'Y)\)
- Überprüfung der Validität: Hansen-J-Test
- Paneldaten: Daten mit mehreren Beobachtungen pro Einheit über Zeit
- Fixed Effects Modell: Kontrolle für zeitinvariante Heterogenität
- First-Difference Methode als alternative bei starken Fixed Effects
Diskrete Wahlmodelle
Definition:
Modelle zur Analyse von Entscheidungen mit diskreten Alternativen.
Details:
- Oft verwendet: Logit- und Probit-Modelle.
- Nutzen-Maximierungsansatz: Individuen wählen Alternative mit höchstem Nutzen.
- Logit-Modell: Annahme unabhängiger Gumbel-Verteilung der Fehlerterme.
- Wahrscheinlichkeit: \( P(y_i = j) = \frac{e^{X_i \beta_j}}{\sum_{k=1}^{J} e^{X_i \beta_k}} \).
- Probit-Modell: Annahme normalverteilter Fehlerterme.
- Maximum Likelihood Estimation (MLE) zur Parameterschätzung.
VAR-Modelle (Vector AutoRegression)
Definition:
VAR-Modelle analysieren gleichzeitige dynamische Wechselwirkungen mehrerer Zeitreihenvariablen.
Details:
- Gleichung für VAR(1): \[ Y_t = c + A_1 Y_{t-1} + u_t \]- \( Y_t \): vektor der endogenen Variablen- \( c \): Vektor der Konstanten- \( A_1 \): Matrix der Koeffizienten- \( u_t \): Vektor der Fehlerterme
- Annahmen: Stationarität, keine Autokorrelation der Fehlerterme
- Anwendungen: Prognosen, ursächliche Zusammenhänge analysieren, Schock-Einschätzung