Microeconometrics and machine learning - Cheatsheet.pdf

Microeconometrics and machine learning - Cheatsheet
Microeconometrics and machine learning - Cheatsheet Lineare Regressionsmodelle und ihre Annahmen Definition: Lineare Regressionsmodelle schätzen die Beziehung zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen. Annahmen sind wichtig für die Validität der Schätzungen. Details: Modell: \( Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_k X_k + \epsilon \) Annahmen: Linear...

© StudySmarter 2024, all rights reserved.

Microeconometrics and machine learning - Cheatsheet

Lineare Regressionsmodelle und ihre Annahmen

Definition:

Lineare Regressionsmodelle schätzen die Beziehung zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen. Annahmen sind wichtig für die Validität der Schätzungen.

Details:

  • Modell: \( Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_k X_k + \epsilon \)
  • Annahmen:
    • Linearity: Beziehung zwischen abhängigen und unabhängigen Variablen ist linear.
    • Unabhängigkeit: Beobachtungen sind unabhängig voneinander.
    • Homoskedastizität: Varianz der Fehlerterme ist konstant.
    • Normalverteilung: Fehlerterme sind normalverteilt.
    • Keine Multikollinearität: Unabhängige Variablen sind nicht perfekt korreliert.
  • Verletzung der Annahmen führt zu verzerrten oder ineffizienten Schätzungen, beeinträchtigt Hypothesentests und Konfidenzintervalle.

Unterschiede zwischen überwachten und unüberwachten Lernmethoden

Definition:

Überwachte Lernmethoden verwenden gelabelte Trainingsdaten, um Modelle zu trainieren; unüberwachte Lernmethoden nutzen ungelabelte Daten, um Muster zu entdecken.

Details:

  • Überwachte Lernmethoden: Zuordnung von Eingaben zu Ausgaben (\textit{input-output mapping})
  • Unüberwachte Lernmethoden: Finden von Strukturen und Mustern in Daten
  • Beispiele überwacht: Linear Regression, Klassifikation
  • Beispiele unüberwacht: Clusteranalyse, Dimensionsreduktion
  • Überwachte Methoden benötigen labeled datasets (\textit{gelabelte Daten})
  • Unüberwachte Methoden arbeiten mit unlabeled datasets (\textit{ungelabelte Daten})

Methoden der Kausalinferenz (z.B. Instrumentalvariablen, Paneldatenanalyse)

Definition:

Methoden zur Identifikation kausaler Effekte in Daten, um Zusammenhänge zwischen Variablen zu verstehen.

Details:

  • Instrumentalvariablen (IV): Verwendet, wenn endogene Regressoren existieren. Instrument muss relevant und exogen sein.
  • IV-Schätzer: \[ \hat{\beta}_{IV} = \frac{Cov(z,y)}{Cov(z,x)} \]
  • Paneldatenanalyse: Nutzung von Daten, die mehrere Zeitpunkte für die gleichen Einheiten abdecken. Ermöglicht Kontrolle für unbeobachtete Heterogenität.
  • Fixed-Effects-Modell (FE): Kontrolle für zeitinvariante, unbeobachtete Variablen. \[ y_{it} = \alpha_i + \beta x_{it} + \epsilon_{it} \]
  • Random-Effects-Modell (RE): Annahme, dass unbeobachtete Effekte nicht mit den Regressoren korreliert sind. \[ y_{it} = \alpha + \beta x_{it} + u_i + \epsilon_{it} \]
  • Häufig verwendet in Microeconometrics und Machine Learning.

Datenaufbereitung und -management für ökonometrische Analysen

Definition:

Datenaufbereitung und -management für ökonometrische Analysen bedeutet, Daten zu säubern, transformieren und organisieren, um sie für ökonometrische Modelle und Maschinelles Lernen nutzbar zu machen.

Details:

  • Bereinigung: Fehlende Werte beheben, Ausreißer identifizieren und korrigieren.
  • Transformation: Daten skalieren, normalisieren oder log-transformieren.
  • Feature-Engineering: Relevante Variablen erstellen, z.B. \textit{Dummy-Variablen} oder Interaktionsterms.
  • Datenbankverwaltung: Nutzung von SQL oder Pandas für effizientes Datenhandling.
  • Datenzusammenführung: Joins und Merges von Datensätzen zur Erstellung eines Master-Datensatzes.

Maßnahmen zur Vermeidung von Überanpassung in maschinellen Lernmodellen

Definition:

Techniken und Methoden, um zu verhindern, dass ein Modell zu genau auf die Trainingsdaten abgestimmt wird und dadurch auf neuen Daten schlecht generalisiert.

Details:

  • Regularisierung: Einfügen eines Strafterms in die Verlustfunktion (z.B. Ridge (\text{L2}) oder Lasso (\text{L1})).
  • Kreuzvalidierung: Daten in Teile aufteilen und das Modell auf jedem Teil testen.
  • Early Stopping: Training stoppen, wenn die Leistung auf einem Validierungssatz sich verschlechtert.
  • Datenaugmentation: Künstliches Vergrößern des Datensatzes durch Transformationen.
  • Dropout (bei neuronalen Netzen): Zufällig Knoten während des Trainings deaktivieren.
  • Einfachere Modelle wählen: Vermeiden von zu komplexen Modellen, die das Risiko der Überanpassung erhöhen.

Evaluation der Modellgüte (z.B. R², AUC-ROC, Cross-Validation)

Definition:

Details:

  • R²: Maß für Erklärungsstärke des Modells, Anteil der durch das Modell erklärten Varianz. \[ R^2 = 1 - \frac{SSR}{SST} \]
  • AUC-ROC: Fläche unter der ROC-Kurve, misst Trennfähigkeit des Klassifikationsmodells. \[ AUC = \int_{0}^{1} TPR(FPR^{-1}(x)) \,dx \]
  • Cross-Validation: Methode zur Validierung der Modellgüte durch Aufteilung des Datensatzes in Trainings- und Testdaten. \[ CV = \frac{1}{K} \sum_{k=1}^{K} e_k \]

Probit- und Logit-Modelle zur Klassifikation und ihre Anwendung

Definition:

Probit- und Logit-Modelle sind statistische Techniken zur Klassifikation binärer abhängiger Variablen.

Details:

  • Probit-Modell: nutzt die kumulative Verteilungsfunktion der Normalverteilung.
  • Logit-Modell: nutzt die logistische Funktion.
  • Beide Modelle schätzen die Wahrscheinlichkeit, dass eine Beobachtung zu einer bestimmten Kategorie gehört.
  • Maximum-Likelihood-Schätzung (MLE) wird oft zur Parameterschätzung verwendet.
  • Anwendung in Microeconometrics: z.B. Analyse von Umfragen, Arbeitsmarktforschung.
  • Anwendung in Machine Learning: z.B. Kreditwürdigkeitsprüfung, medizinische Diagnosen.
  • Formeln:
  • Probit: \(\text{P}(Y=1|X) = \text{Φ}(X'β)\), wobei \(\text{Φ}\) die kumulative Verteilungsfunktion der Normalverteilung ist.
  • Logit: \(\text{P}(Y=1|X) = \frac{1}{1+e^{-X'β}}\)

Training und Validierung von maschinellen Lernmodellen

Definition:

Vorgang, bei dem maschinelle Lernmodelle aufgeteilt und getestet werden, um ihre Genauigkeit und Vorhersagekraft zu überprüfen.

Details:

  • Trainingsdaten: Datensatz zur Anpassung des Modells.
  • Validierungsdaten: Unabhängiger Datensatz zur Modellbewertung während der Trainingsphase.
  • Trainingsprozess: Optimierung der Modellparameter mittels Techniken wie Gradientenabstieg.
  • Validierungsprozess: Berechnung von Fehlermetriken (z.B. MSE, MAE) auf Validierungsdaten, um Overfitting zu erkennen.
  • Trainings-/Validierungs-Split: Häufig verwendetes Verhältnis 80/20 oder 70/30.
  • Kreuzvalidierung: Aufteilung der Daten in k-Falten, wobei jede Falte einmal als Validierungs- und k-1 Mal als Trainingsdaten dient.
  • Hyperparameter-Tuning: Anpassung der Modellparameter basierend auf Validierungsergebnissen.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden