Microeconometrics and Machine Learning - Cheatsheet
Grundlagen der Mikroökonometrie
Definition:
Grundlagen der Mikroökonometrie umfassen die statistischen Methoden zur Analyse individueller Daten. Ziel ist das Testen ökonomischer Theorien und die Schätzung ökonomischer Modelle.
Details:
- Regressionsanalyse zur Schätzung der Beziehungen zwischen Variablen
- Verwendung von Querschnitts- und Paneldaten
- Heteroskedastizität und Autokorrelation
- Instrumentenvariablen zur Behandlung endogener Regressoren
- Schätzung von linearer und nicht-linearer Modellen
- Identifikationsprobleme und Kausalität
- Relevante Modelle: Logit, Probit, Tobit
Überwachtes und unüberwachtes Lernen
Definition:
Überwachtes Lernen nutzt gelabelte Daten für die Modellentwicklung. Unüberwachtes Lernen arbeitet mit ungelabelten Daten zur Erkennung von Mustern oder Strukturen.
Details:
- Überwachtes Lernen: Zielvariable bekannt, z.B. lineare Regression, Entscheidungsbäume.
- Loss-Funktion zur Bewertung der Genauigkeit: \( L(f(x), y) \).
- Unüberwachtes Lernen: Keinerlei Zielvariable, z.B. Clusteranalyse, Dimensionsreduktion.
- Unüberwachte Methoden: k-Means, Hauptkomponentenanalyse (PCA).
- Ziel: Datenstruktur entdecken, z.B. Segmentierung, Anomalieerkennung.
Lineare und nichtlineare Regressionsmodelle
Definition:
Lineare und nichtlineare Regressionsmodelle: Methoden zur Modellierung der Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen.
Details:
- Lineare Regression: Modelliert Beziehungen mittels einer Geraden
- Nichtlineare Regression: Verwendet komplexere Formen (Polynome, Exponential, Logarithmus, etc.)
- Modellformel für lineare Regression:
- s
Kausalitätsanalyse
Definition:
Untersuchung der Ursache-Wirkungs-Beziehungen mittels statistischer Methoden.
Details:
- Ziel: Identifikation und Quantifizierung der Effekte unabhängiger Variablen auf abhängige Variablen.
- Einsatzfelder: Politik, Wirtschaft, Medizin.
- Methoden: Instrumentalvariablen (\text{IV}), Differenzen-in-Differenzen (\text{\text{DiD}}), Regression Diskontinuitätsdesign (\text{RDD}).
Algorithmen zur Datenanalyse
Definition:
Algorithmen, die verwendet werden, um Daten zu untersuchen, Muster zu erkennen und Vorhersagen zu treffen. Wesentlich für die Analyse in Mikroökonometrie und maschinellem Lernen.
Details:
- Lineare Regression: Modell zur Vorhersage einer abhängigen Variable basierend auf einer oder mehreren unabhängigen Variablen. Formel: \[ y = \beta_0 + \beta_1 x_1 + \ldots + \beta_n x_n + \epsilon \]
- Logistische Regression: Klassifikationsalgorithmus für binäre Ergebnisse. Formel: \[ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \ldots + \beta_n x_n)}} \]
- K-Means Clustering: Unüberwachtes Lernverfahren zum Gruppieren ähnlicher Datenpunkte. Ziel: Minimierung der Summe quadratischer Abstände zwischen den Datenpunkten und ihren zugehörigen Cluster-Zentren.
- Entscheidungsbäume: Modell zur Vorhersage einer Zielvariable durch Lernregeln aus den Datenmerkmalen. Verwendung in der Klassifikation und Regression.
- Random Forest: Ensemble-Lernmethode, die viele Entscheidungsbäume kombiniert. Reduziert Überanpassung und verbessert die Vorhersagegenauigkeit.
- Support Vector Machines (SVM): Klassifikationsalgorithmus, der die Daten in einem hochdimensionalen Raum separiert und eine maximale Trennmarge zwischen den Klassen findet.
Verarbeitung großer Datensätze
Definition:
Verarbeitung großer Datensätze bezieht sich auf die Methoden und Techniken zur effizienten Bearbeitung und Analyse von Datenmengen, die zu groß sind, um mit traditionellen Datenbank- und Verarbeitungswerkzeugen gehandhabt zu werden.
Details:
- Verwendung verteilter Systeme (z.B. Hadoop, Spark)
- Parallele Verarbeitung zur Reduzierung der Berechnungszeit
- Optimierung von Algorithmen zur Skalierung auf große Datenmengen
- Datenvorverarbeitung (z.B. Bereinigung, Transformation)
- Nutzung von Datenbanken und Speicherlösungen speziell für große Datensätze (z.B. NoSQL, Cloud Storage)
- Eigenschaften großer Datensätze: Volume, Velocity, Variety, Veracity (die 4 V's von Big Data)
Panel-Daten Methoden
Definition:
Panel-Daten Methoden für die Analyse von Daten, die über mehrere Zeitperioden und für dieselben Individuen erhoben wurden.
Details:
- Erlaubt die Kontrolle für unbeobachtete Heterogenität.
- Fixe Effekte (FE): Kontrolliert für zeitinvariante Eigenschaften, die individuell spezifisch sind.
- Zufällige Effekte (RE): Geht von der Unkorreliertheit der unbeobachteten Effekte mit den Regressoren aus.
- Formel des FE-Modells: \( y_{it} = \alpha + \beta x_{it} + u_{i} + \epsilon_{it} \)
- Formel des RE-Modells: \( y_{it} = \alpha + \beta x_{it} + v_{it} \), wobei \( v_{it} = u_{i} + \epsilon_{it} \)
- Hausman-Test: Unterscheidung zwischen FE und RE.
Robuste Inferenztechniken
Definition:
Techniken zur sicheren Schätzung und Hypothesentests trotz Verletzungen von Modellannahmen.
Details:
- Verwendung bei Heteroskedastizität und Autokorrelation
- Robuste Standardfehler
- Sandwich-Estimator (\textit{Huber-White})
- Bootstrapping-Verfahren
- \textit{Clustered Standard Errors}