Bayesian econometrics - Cheatsheet
Grundlagen der Bayesianischen Statistik
Definition:
Grundlagen der Bayesianischen Statistik umfassen die Anwendung des Bayes' Theorems zur Verarbeitung von Unsicherheit und Aktualisierung von Wahrscheinlichkeiten basierend auf neuen Daten.
Details:
- Priors: Vorinformationen oder Annahmen über Parameter, ausgedrückt als \( P(\theta) \).
- Likelihood: Wahrscheinlichkeit der Daten gegeben die Parameter, ausgedrückt als \( P(D|\theta) \).
- Posterior: Aktualisierte Wahrscheinlichkeit der Parameter nach Berücksichtigung der Daten, berechnet als \[ P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} \].
- Bayes' Theorem: Zentrale Formel zur Verknüpfung von Priors, Likelihood und Posterior.
- Anwendungen: Modellvergleich, Vorhersagen, Unsicherheitsbewertung.
Prior- und Posterior-Verteilungen
Definition:
Prior- und Posterior-Verteilungen sind zentrale Konzepte der Bayesschen Ökonometrie. Die Prior-Verteilung repräsentiert das Vorwissen über Parameter vor der Analyse. Die Posterior-Verteilung kombiniert dieses Vorwissen mit den Daten, um die aktualisierte Wahrscheinlichkeitsverteilung der Parameter zu erhalten.
Details:
- Prior-Verteilung: Vorherige Annahmen über Parameter, dargestellt als Wahrscheinlichkeitsverteilung \( p(\theta) \).
- Posterior-Verteilung: Aktualisierte Verteilung nach Einbeziehung von Daten \( p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)} \).
- Bayesscher Satz: \[ p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)} \] ermöglicht die Berechnung der Posterior.
- likelihood: \( p(D|\theta) \) ist die Wahrscheinlichkeit der Daten gegeben die Parameter.
- Marginale Wahrscheinlichkeit: \( p(D) \) ist die Summe der Wahrscheinlichkeiten über alle möglichen Werte der Parameter.
Bayesianische Schätzung und Konfidenzintervalle
Definition:
Bayesianische Schätzung verwendet Bayes' Theorem, um die Verteilung der Parameter zu aktualisieren. Konfidenzintervalle in der bayesianischen Statistik sind Bereiche der Posteriorverteilung, die eine bestimmte Wahrscheinlichkeitsmasse abdecken.
Details:
- Priors: Vorherige Verteilungen der Parameter, bevor Daten berücksichtigt werden.
- Posterior: Aktualisierte Verteilung der Parameter gegeben die Daten.
- Bayes' Theorem: \[ P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} \]
- Häufig verwendete Prior-Distributionen: Normalverteilung, Beta-Verteilung, Gamma-Verteilung.
- Posterior-Distribution berechnen: \[ \theta_{posterior} = \frac{\theta_{prior} \times L(D|\theta)}{\text{Evidence}} \]
- Konfidenzintervalle: Credible Intervals berechnen. Beispiel: 95%-Intervall umfasst 95% der Posteriorverteilung.
Unterschiede zwischen Bayesianischen und frequentistischen Ansätzen
Definition:
Bayesianische Ansätze nutzen den Satz von Bayes, um Wahrscheinlichkeiten basierend auf Vorinformationen zu aktualisieren, während frequentistische Ansätze Wahrscheinlichkeiten als relative Häufigkeiten von Ereignissen in wiederholten Experimenten betrachten.
Details:
- Bayesianisch: Nutzt Vorverteilungen und den Satz von Bayes Formulierung: \( P(\theta | X) = \frac{P(X | \theta) P(\theta)}{P(X)} \)
- Frequentistisch: Schätzt Parameter basierend auf Stichprobeninformationen ohne Vorverteilungen Formulierung: \( \theta = arg \max L(\theta | X) \)
- Parameter: Bayesianisch: Zufallsvariable, Frequentistisch: Feste, aber unbekannte Größen
- Inferenz: Bayesianisch: basierend auf der posterioren Verteilung, Frequentistisch: basierend auf Stichprobenverteilungen und Konfidenzintervallen
- Vorteile/Nachteile: Bayesianisch: Flexibel, berücksichtigt Vorinformationen. Frequentistisch: Streng objektiv, keine subjektiven Annahmen.
Identifikation und Schätzung kausaler Effekte in RDD
Definition:
Identifikation und Schätzung kausaler Effekte durch Regression Discontinuity Design.
Details:
- RDD nutzt Diskontinuität im Regressor zur Identifikation kausaler Effekte.
- Wichtig: Annahmen der lokalen Unabhängigkeit und der kontinuierlichen Verteilungsfunktion.
- Formel für den kausalen Effekt am Cutoff \(c\): \[ \tau = \text{E}[Y(1) - Y(0) \,|\, X = c] \]
Instrumentenvariablenansatz
Definition:
Die Methode der Instrumentenvariablen (IV) wird verwendet, um Endogenitätsprobleme zu lösen, die entstehen, wenn eine Erklärungstextrie variable mit dem Fehlerterm korreliert ist.
Details:
- Verwendung von Instrumenten (Z), die mit den endogenen erklärenden Variablen (X) korrelieren, aber nicht mit dem Fehlerterm.
- IV-Schätzer: \( \hat{\beta}_{IV} = (Z'X)^{-1} Z'y \)
- Hauptannahmen: Relevanz und Exogenität der Instrumente.
- Diagnose: Hansen-J-Test für Überidentifizierungsrestriktionen.
- Bayesianischer Ansatz: Simuliere Posterior-Verteilung der IV-Schätzungen, oft mit Markov-Chain-Monte-Carlo (MCMC) Methoden.
Nichtlineare ökonometrische Modelle
Definition:
Nichtlineare ökonometrische Modelle erfassen komplexe Beziehungen zwischen Variablen, die nicht durch lineare Zusammenhänge dargestellt werden können.
Details:
- Ableitung von Modellen, die nicht die Form einer linearen Gleichung haben
- Formeln: z.B. \[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_1^2 + \beta_3 \text{ln}(x_2) + \beta_4 e^{x_3} + \text{Fehlerterm} \]
- Verwendung nichtlinearer Regression und Maximum-Likelihood-Schätzung
- Bayesianische Methoden integrieren Priorverteilungen (z.B. normal) bei der Parameterschätzung
- MCMC-Methoden (Markov Chain Monte Carlo) wie Gibbs-Sampling werden häufig eingesetzt
Modellvalidierung und Diagnose
Definition:
Bewertung und Überprüfung der Angemessenheit eines Bayes'schen Modells. Ziel ist es, die Verlässlichkeit und Präzision von Vorhersagen und Schätzungen zu gewährleisten.
Details:
- Posterior Prädiktive Überprüfung: Vergleiche beobachtete Daten mit Daten simuliert aus dem posterioren Prädiktiven Verteilung.
- Konvergenzdiagnose: Überprüfe, ob die MCMC-Ketten konvergieren (z.B. Gelman-Rubin-Statistik).
- Metriken: Nutze Metriken wie Bayes-Faktor und Deviance Information Criterion (DIC).
- Residualanalyse: Analyse von Residuen, um Fehlerstrukturen zu identifizieren.
- Sensitivitätsanalyse: Untersuche, wie empfindlich die Ergebnisse gegenüber den Priors sind.