Datenbereinigung und -management
Definition:
Prozesse zur Vorbereitung und Organisation von Daten für die empirische Analyse.
Details:
- Datenbereinigung: Entfernen von Fehlern, fehlenden Werten, Duplikaten.
- Datenmanagement: Strukturierung und Verwaltung der Daten.
- Verwendung von Software wie Stata, R oder Python.
- Wichtige Schritte: Datenimport, -prüfung, -umwandlung, -speicherung.
- Dokumentation und Nachvollziehbarkeit essenziell.
- Einheitliche Datenformate und klare Variablenbezeichnung sicherstellen.
Deskriptive Statistik und Visualisierung
Definition:
Deskriptive Statistik befasst sich mit der Sammlung, Darstellung und Zusammenfassung von Daten. Visualisierung nutzt grafische Darstellungen, um Daten verständlich zu machen.
Details:
- Häufigkeitsverteilung: Beschreibung wie oft Werte in einer Datenreihe vorkommen
- Maßzahlen: Lageparameter (Mittelwert, Median, Modus), Streuungsmaße (Varianz, Standardabweichung)
- Grafiken: Histogramme, Boxplots, Streudiagramme, Balkendiagramme
- Verwendung: Erkennen von Mustern, Trends und Ausreißern in den Daten
Regression und Korrelation
Definition:
Analyse des Zusammenhangs zwischen Variablen. Regression zeigt den kausalen Effekt einer unabhängigen Variable auf eine abhängige Variable. Korrelation misst die Stärke und Richtung einer linearen Beziehung zwischen zwei Variablen.
Details:
- Lineares Regressionsmodell: \[ Y = \beta_0 + \beta_1X + \epsilon \]
- Korrelation: Wertebereich zwischen -1 und 1
- Korrelation (Pearson-Korrelationskoeffizient): \[ r = \frac{\sum (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum (X_i - \overline{X})^2 \sum (Y_i - \overline{Y})^2}} \]
- Bestimmtheitsmaß (R²): Anteil der Varianz der abhängigen Variable, der durch die unabhängigen Variablen erklärt wird \[ R^2 = 1 - \frac{\sum (Y_i - \hat{Y_i})^2}{\sum (Y_i - \overline{Y})^2} \]
Parameter- und Hypothesentests
Definition:
Verfahren zum Testen von Annahmen über Populationsparameter. Häufig verwendet in statistischen Untersuchungen.
Details:
- Parameter: Unbekannte Größen in der Grundgesamtheit (z.B. Mittelwert \(\mu\), Varianz \(\sigma^2\)).
- Hypothese: Aussage über einen Parameter (Nullhypothese \(H_0\): Annahme, die getestet wird. Alternativhypothese \(H_1\): Gegenhypothese).
- Teststatistik: Berechnete Größe aus der Stichprobe zur Entscheidungsfindung.
- Signifikanzniveau \(\alpha\): Wahrscheinlichkeit, mit der \(H_0\) abgelehnt wird, obwohl sie wahr ist.
- p-Wert: Wahrscheinlichkeit, ein Testergebnis zu erhalten, das mindestens so extrem ist wie das beobachtete, unter der Annahme, dass \(H_0\) wahr ist.
- Zweiseitiger Test: Testet auf Abweichungen in beide Richtungen (oberhalb und unterhalb des Mittelwerts).
- Einseitiger Test: Testet nur auf Abweichungen in eine Richtung.
- Akzeptanzbereich: Bereich, in dem \(H_0\) nicht abgelehnt wird. Abgelehnt wird, wenn Teststatistik außerhalb dieses Bereichs liegt.
- Kritischer Wert: Grenzwert, der den Akzeptanzbereich begrenzt, abhängig von \(\alpha\) und Verteilung der Teststatistik.
Zeitreihenanalyse
Definition:
Analyse von Daten, die in zeitlicher Abfolge erhoben wurden, um Muster, Trends und Zusammenhänge zu identifizieren.
Details:
- ACFs und PACFs zur Identifikation von Abhängigkeiten
- ARIMA-Modelle zur Prognose: \( ARIMA(p,d,q) \)
- Stationarität: Überprüfung durch Augmented-Dickey-Fuller-Test
- Trend, Saisonalität, Zyklus - Decomposition
- Residuenanalyse zur Modellvalidierung
Ökonometrische Modelle
Definition:
Ökonometrische Modelle quantifizieren wirtschaftliche Zusammenhänge mittels statistischer Methoden und ökonomischer Theorien.
Details:
- Regressionsanalyse zur Schätzung der Beziehung zwischen Variablen
- Prüfung von Hypothesen über wirtschaftliche Parameter
- Häufig verwendete Modelle: Lineare Regressionsmodelle, Zeitreihenmodelle
- Schätzung der Modellparameter: Kleinste-Quadrate-Schätzung (OLS), Maximum-Likelihood-Schätzung (MLE)
- Test auf Signifikanz von geschätzten Koeffizienten (t-Test, F-Test)
- Probleme und Annahmen: Autokorrelation, Heteroskedastizität, Multikollinearität
Experimentelle und quasi-experimentelle Designs
Definition:
Untersuche kausale Zusammenhänge durch kontrollierte Experimente (randomisierte Zuweisung) oder quasi-experimentelle Ansätze (keine vollständige Kontrolle).
Details:
- Experimentell: Randomisierte Zuweisung der Teilnehmer zur Interventions- oder Kontrollgruppe.
- Quasi-experimentell: Keine Randomisierung, aber Einsatz anderer Techniken zur Kontrolle von Störvariablen.
- Ziel: Kausale Effekte von Variablen isolieren.
- Typische Methoden: Unterschied-in-Unterschieden (DID), Regression Diskontinuitäts-Design (RDD) und Instrumentalvariablen (IV).
- Analysetools: t-Test, ANOVA für experimentelle Designs; Regressionsanalyse für quasi-experimentelle Designs.
- Wichtig: Validität und Reliabilität der Ergebnisse sicherstellen.
Paneldatenanalyse
Definition:
Analyse von Daten, die sowohl zeitliche als auch Querschnittsvariationen aufweisen.
Details:
- Möglichkeit zur Kontrolle unbeobachteter Heterogenität durch fixe Effekte (FE) und zufällige Effekte (RE)
- Fixe Effekte Modell: \[Y_{it} = \alpha_i + \beta' X_{it} + \epsilon_{it}\]
- Zufällige Effekte Modell: \[Y_{it} = \alpha + \beta' X_{it} + u_i + \epsilon_{it}\]
- Dummy-Variable für jede Querschnittseinheit im FE-Modell
- Hausman-Test zur Auswahl zwischen FE und RE