Microeconometrics and machine learning - Cheatsheet
Lineare Regressionsmodelle und ihre Annahmen
Definition:
Lineare Regressionsmodelle schätzen die Beziehung zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen. Annahmen sind wichtig für die Validität der Schätzungen.
Details:
- Modell: \( Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_k X_k + \epsilon \)
- Annahmen:
- Linearity: Beziehung zwischen abhängigen und unabhängigen Variablen ist linear.
- Unabhängigkeit: Beobachtungen sind unabhängig voneinander.
- Homoskedastizität: Varianz der Fehlerterme ist konstant.
- Normalverteilung: Fehlerterme sind normalverteilt.
- Keine Multikollinearität: Unabhängige Variablen sind nicht perfekt korreliert.
- Verletzung der Annahmen führt zu verzerrten oder ineffizienten Schätzungen, beeinträchtigt Hypothesentests und Konfidenzintervalle.
Unterschiede zwischen überwachten und unüberwachten Lernmethoden
Definition:
Überwachte Lernmethoden verwenden gelabelte Trainingsdaten, um Modelle zu trainieren; unüberwachte Lernmethoden nutzen ungelabelte Daten, um Muster zu entdecken.
Details:
- Überwachte Lernmethoden: Zuordnung von Eingaben zu Ausgaben (\textit{input-output mapping})
- Unüberwachte Lernmethoden: Finden von Strukturen und Mustern in Daten
- Beispiele überwacht: Linear Regression, Klassifikation
- Beispiele unüberwacht: Clusteranalyse, Dimensionsreduktion
- Überwachte Methoden benötigen labeled datasets (\textit{gelabelte Daten})
- Unüberwachte Methoden arbeiten mit unlabeled datasets (\textit{ungelabelte Daten})
Methoden der Kausalinferenz (z.B. Instrumentalvariablen, Paneldatenanalyse)
Definition:
Methoden zur Identifikation kausaler Effekte in Daten, um Zusammenhänge zwischen Variablen zu verstehen.
Details:
- Instrumentalvariablen (IV): Verwendet, wenn endogene Regressoren existieren. Instrument muss relevant und exogen sein.
- IV-Schätzer: \[ \hat{\beta}_{IV} = \frac{Cov(z,y)}{Cov(z,x)} \]
- Paneldatenanalyse: Nutzung von Daten, die mehrere Zeitpunkte für die gleichen Einheiten abdecken. Ermöglicht Kontrolle für unbeobachtete Heterogenität.
- Fixed-Effects-Modell (FE): Kontrolle für zeitinvariante, unbeobachtete Variablen. \[ y_{it} = \alpha_i + \beta x_{it} + \epsilon_{it} \]
- Random-Effects-Modell (RE): Annahme, dass unbeobachtete Effekte nicht mit den Regressoren korreliert sind. \[ y_{it} = \alpha + \beta x_{it} + u_i + \epsilon_{it} \]
- Häufig verwendet in Microeconometrics und Machine Learning.
Datenaufbereitung und -management für ökonometrische Analysen
Definition:
Datenaufbereitung und -management für ökonometrische Analysen bedeutet, Daten zu säubern, transformieren und organisieren, um sie für ökonometrische Modelle und Maschinelles Lernen nutzbar zu machen.
Details:
- Bereinigung: Fehlende Werte beheben, Ausreißer identifizieren und korrigieren.
- Transformation: Daten skalieren, normalisieren oder log-transformieren.
- Feature-Engineering: Relevante Variablen erstellen, z.B. \textit{Dummy-Variablen} oder Interaktionsterms.
- Datenbankverwaltung: Nutzung von SQL oder Pandas für effizientes Datenhandling.
- Datenzusammenführung: Joins und Merges von Datensätzen zur Erstellung eines Master-Datensatzes.
Maßnahmen zur Vermeidung von Überanpassung in maschinellen Lernmodellen
Definition:
Techniken und Methoden, um zu verhindern, dass ein Modell zu genau auf die Trainingsdaten abgestimmt wird und dadurch auf neuen Daten schlecht generalisiert.
Details:
- Regularisierung: Einfügen eines Strafterms in die Verlustfunktion (z.B. Ridge (\text{L2}) oder Lasso (\text{L1})).
- Kreuzvalidierung: Daten in Teile aufteilen und das Modell auf jedem Teil testen.
- Early Stopping: Training stoppen, wenn die Leistung auf einem Validierungssatz sich verschlechtert.
- Datenaugmentation: Künstliches Vergrößern des Datensatzes durch Transformationen.
- Dropout (bei neuronalen Netzen): Zufällig Knoten während des Trainings deaktivieren.
- Einfachere Modelle wählen: Vermeiden von zu komplexen Modellen, die das Risiko der Überanpassung erhöhen.
Evaluation der Modellgüte (z.B. R², AUC-ROC, Cross-Validation)
Definition:
Details:
- R²: Maß für Erklärungsstärke des Modells, Anteil der durch das Modell erklärten Varianz. \[ R^2 = 1 - \frac{SSR}{SST} \]
- AUC-ROC: Fläche unter der ROC-Kurve, misst Trennfähigkeit des Klassifikationsmodells. \[ AUC = \int_{0}^{1} TPR(FPR^{-1}(x)) \,dx \]
- Cross-Validation: Methode zur Validierung der Modellgüte durch Aufteilung des Datensatzes in Trainings- und Testdaten. \[ CV = \frac{1}{K} \sum_{k=1}^{K} e_k \]
Probit- und Logit-Modelle zur Klassifikation und ihre Anwendung
Definition:
Probit- und Logit-Modelle sind statistische Techniken zur Klassifikation binärer abhängiger Variablen.
Details:
- Probit-Modell: nutzt die kumulative Verteilungsfunktion der Normalverteilung.
- Logit-Modell: nutzt die logistische Funktion.
- Beide Modelle schätzen die Wahrscheinlichkeit, dass eine Beobachtung zu einer bestimmten Kategorie gehört.
- Maximum-Likelihood-Schätzung (MLE) wird oft zur Parameterschätzung verwendet.
- Anwendung in Microeconometrics: z.B. Analyse von Umfragen, Arbeitsmarktforschung.
- Anwendung in Machine Learning: z.B. Kreditwürdigkeitsprüfung, medizinische Diagnosen.
- Formeln:
- Probit: \(\text{P}(Y=1|X) = \text{Φ}(X'β)\), wobei \(\text{Φ}\) die kumulative Verteilungsfunktion der Normalverteilung ist.
- Logit: \(\text{P}(Y=1|X) = \frac{1}{1+e^{-X'β}}\)
Training und Validierung von maschinellen Lernmodellen
Definition:
Vorgang, bei dem maschinelle Lernmodelle aufgeteilt und getestet werden, um ihre Genauigkeit und Vorhersagekraft zu überprüfen.
Details:
- Trainingsdaten: Datensatz zur Anpassung des Modells.
- Validierungsdaten: Unabhängiger Datensatz zur Modellbewertung während der Trainingsphase.
- Trainingsprozess: Optimierung der Modellparameter mittels Techniken wie Gradientenabstieg.
- Validierungsprozess: Berechnung von Fehlermetriken (z.B. MSE, MAE) auf Validierungsdaten, um Overfitting zu erkennen.
- Trainings-/Validierungs-Split: Häufig verwendetes Verhältnis 80/20 oder 70/30.
- Kreuzvalidierung: Aufteilung der Daten in k-Falten, wobei jede Falte einmal als Validierungs- und k-1 Mal als Trainingsdaten dient.
- Hyperparameter-Tuning: Anpassung der Modellparameter basierend auf Validierungsergebnissen.