Microeconometrics and Machine Learning - Cheatsheet.pdf

Microeconometrics and Machine Learning - Cheatsheet
Microeconometrics and Machine Learning - Cheatsheet Grundlagen der Mikroökonometrie Definition: Grundlagen der Mikroökonometrie umfassen die statistischen Methoden zur Analyse individueller Daten. Ziel ist das Testen ökonomischer Theorien und die Schätzung ökonomischer Modelle. Details: Regressionsanalyse zur Schätzung der Beziehungen zwischen Variablen Verwendung von Querschnitts- und Paneldaten ...

© StudySmarter 2024, all rights reserved.

Microeconometrics and Machine Learning - Cheatsheet

Grundlagen der Mikroökonometrie

Definition:

Grundlagen der Mikroökonometrie umfassen die statistischen Methoden zur Analyse individueller Daten. Ziel ist das Testen ökonomischer Theorien und die Schätzung ökonomischer Modelle.

Details:

  • Regressionsanalyse zur Schätzung der Beziehungen zwischen Variablen
  • Verwendung von Querschnitts- und Paneldaten
  • Heteroskedastizität und Autokorrelation
  • Instrumentenvariablen zur Behandlung endogener Regressoren
  • Schätzung von linearer und nicht-linearer Modellen
  • Identifikationsprobleme und Kausalität
  • Relevante Modelle: Logit, Probit, Tobit

Überwachtes und unüberwachtes Lernen

Definition:

Überwachtes Lernen nutzt gelabelte Daten für die Modellentwicklung. Unüberwachtes Lernen arbeitet mit ungelabelten Daten zur Erkennung von Mustern oder Strukturen.

Details:

  • Überwachtes Lernen: Zielvariable bekannt, z.B. lineare Regression, Entscheidungsbäume.
  • Loss-Funktion zur Bewertung der Genauigkeit: \( L(f(x), y) \).
  • Unüberwachtes Lernen: Keinerlei Zielvariable, z.B. Clusteranalyse, Dimensionsreduktion.
  • Unüberwachte Methoden: k-Means, Hauptkomponentenanalyse (PCA).
  • Ziel: Datenstruktur entdecken, z.B. Segmentierung, Anomalieerkennung.

Lineare und nichtlineare Regressionsmodelle

Definition:

Lineare und nichtlineare Regressionsmodelle: Methoden zur Modellierung der Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen.

Details:

  • Lineare Regression: Modelliert Beziehungen mittels einer Geraden
  • Nichtlineare Regression: Verwendet komplexere Formen (Polynome, Exponential, Logarithmus, etc.)
  • Modellformel für lineare Regression:
  • s

Kausalitätsanalyse

Definition:

Untersuchung der Ursache-Wirkungs-Beziehungen mittels statistischer Methoden.

Details:

  • Ziel: Identifikation und Quantifizierung der Effekte unabhängiger Variablen auf abhängige Variablen.
  • Einsatzfelder: Politik, Wirtschaft, Medizin.
  • Methoden: Instrumentalvariablen (\text{IV}), Differenzen-in-Differenzen (\text{\text{DiD}}), Regression Diskontinuitätsdesign (\text{RDD}).

Algorithmen zur Datenanalyse

Definition:

Algorithmen, die verwendet werden, um Daten zu untersuchen, Muster zu erkennen und Vorhersagen zu treffen. Wesentlich für die Analyse in Mikroökonometrie und maschinellem Lernen.

Details:

  • Lineare Regression: Modell zur Vorhersage einer abhängigen Variable basierend auf einer oder mehreren unabhängigen Variablen. Formel: \[ y = \beta_0 + \beta_1 x_1 + \ldots + \beta_n x_n + \epsilon \]
  • Logistische Regression: Klassifikationsalgorithmus für binäre Ergebnisse. Formel: \[ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \ldots + \beta_n x_n)}} \]
  • K-Means Clustering: Unüberwachtes Lernverfahren zum Gruppieren ähnlicher Datenpunkte. Ziel: Minimierung der Summe quadratischer Abstände zwischen den Datenpunkten und ihren zugehörigen Cluster-Zentren.
  • Entscheidungsbäume: Modell zur Vorhersage einer Zielvariable durch Lernregeln aus den Datenmerkmalen. Verwendung in der Klassifikation und Regression.
  • Random Forest: Ensemble-Lernmethode, die viele Entscheidungsbäume kombiniert. Reduziert Überanpassung und verbessert die Vorhersagegenauigkeit.
  • Support Vector Machines (SVM): Klassifikationsalgorithmus, der die Daten in einem hochdimensionalen Raum separiert und eine maximale Trennmarge zwischen den Klassen findet.

Verarbeitung großer Datensätze

Definition:

Verarbeitung großer Datensätze bezieht sich auf die Methoden und Techniken zur effizienten Bearbeitung und Analyse von Datenmengen, die zu groß sind, um mit traditionellen Datenbank- und Verarbeitungswerkzeugen gehandhabt zu werden.

Details:

  • Verwendung verteilter Systeme (z.B. Hadoop, Spark)
  • Parallele Verarbeitung zur Reduzierung der Berechnungszeit
  • Optimierung von Algorithmen zur Skalierung auf große Datenmengen
  • Datenvorverarbeitung (z.B. Bereinigung, Transformation)
  • Nutzung von Datenbanken und Speicherlösungen speziell für große Datensätze (z.B. NoSQL, Cloud Storage)
  • Eigenschaften großer Datensätze: Volume, Velocity, Variety, Veracity (die 4 V's von Big Data)

Panel-Daten Methoden

Definition:

Panel-Daten Methoden für die Analyse von Daten, die über mehrere Zeitperioden und für dieselben Individuen erhoben wurden.

Details:

  • Erlaubt die Kontrolle für unbeobachtete Heterogenität.
  • Fixe Effekte (FE): Kontrolliert für zeitinvariante Eigenschaften, die individuell spezifisch sind.
  • Zufällige Effekte (RE): Geht von der Unkorreliertheit der unbeobachteten Effekte mit den Regressoren aus.
  • Formel des FE-Modells: \( y_{it} = \alpha + \beta x_{it} + u_{i} + \epsilon_{it} \)
  • Formel des RE-Modells: \( y_{it} = \alpha + \beta x_{it} + v_{it} \), wobei \( v_{it} = u_{i} + \epsilon_{it} \)
  • Hausman-Test: Unterscheidung zwischen FE und RE.

Robuste Inferenztechniken

Definition:

Techniken zur sicheren Schätzung und Hypothesentests trotz Verletzungen von Modellannahmen.

Details:

  • Verwendung bei Heteroskedastizität und Autokorrelation
  • Robuste Standardfehler
  • Sandwich-Estimator (\textit{Huber-White})
  • Bootstrapping-Verfahren
  • \textit{Clustered Standard Errors}
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden