Microeconometrics and machine learning - Exam.pdf

Microeconometrics and machine learning - Exam
Microeconometrics and machine learning - Exam Aufgabe 1) Hintergrund: Du bist ein Ökonom, der untersucht, wie verschiedene Faktoren den Einkommen von Individuen beeinflussen. Dafür verwendest Du ein lineares Regressionsmodell, um die Beziehung zwischen dem Einkommen (abhängige Variable) und den Faktoren Bildung, Berufserfahrung und Ausbildungsart (unabhängige Variablen) zu analysieren. Das Modell ...

© StudySmarter 2024, all rights reserved.

Microeconometrics and machine learning - Exam

Aufgabe 1)

Hintergrund: Du bist ein Ökonom, der untersucht, wie verschiedene Faktoren den Einkommen von Individuen beeinflussen. Dafür verwendest Du ein lineares Regressionsmodell, um die Beziehung zwischen dem Einkommen (abhängige Variable) und den Faktoren Bildung, Berufserfahrung und Ausbildungsart (unabhängige Variablen) zu analysieren. Das Modell sieht wie folgt aus:

  • \[ Y_i = \beta_0 + \beta_1 \text{Bildung}_i + \beta_2 \text{Berufserfahrung}_i + \beta_3 \text{Ausbildungsart}_i + u_i \]
  • Dabei sind die Annahmen der linearen Regression anwendbar.

b)

Stelle Dir vor, Du hast festgestellt, dass das Problem der Multikollinearität zwischen den unabhängigen Variablen Bildung und Berufserfahrung besteht. Beschreibe die potenziellen Folgen der Multikollinearität auf die Schätzungen des Modells sowie auf die statistischen Tests, und skizziere mögliche Wege, um dieses Problem zu lösen.

Lösung:

Problem der Multikollinearität:Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen in einem Regressionsmodell stark miteinander korrelieren. In Deinem Fall besteht Multikollinearität zwischen den Variablen Bildung und Berufserfahrung.

  • Potenzielle Folgen der Multikollinearität:
    • Instabile Schätzungen: Die Koeffizienten der betroffenen Variablen können instabil werden und große Standardfehler haben. Dies führt dazu, dass kleine Änderungen in den Daten zu großen Änderungen in den Schätzungen führen können.
    • Unzuverlässige Hypothesentests: Die Standardfehler der Koeffizienten können stark zunehmen, was dazu führt, dass T-Tests (zur Überprüfung der statistischen Signifikanz der Koeffizienten) unzuverlässig werden. Dadurch kann die Wahrscheinlichkeit steigen, dass man die Nullhypothese (dass die Koeffizienten nicht signifikant sind) nicht ablehnt, selbst wenn dies falsch ist.
    • Interpretationsprobleme: Aufgrund der starken Korrelation zwischen den unabhängigen Variablen kann es schwierig sein, die einzelnen Effekte der Variablen korrekt zu interpretieren.
  • Wege zur Lösung des Problems der Multikollinearität:
    • Datenkombination: Kombiniere stark korrelierte Variablen zu einem Index oder einer neuen Variable. Zum Beispiel könntest Du Bildung und Berufserfahrung zu einer einzigen Variablen zusammenfassen, die den „Karrierestand“ einer Person darstellt.
    • Hauptkomponentenanalyse (PCA): Bei dieser Methode werden die unabhängigen Variablen in Hauptkomponenten umgewandelt, die unkorreliert sind. Diese Komponenten können dann in der Regression verwendet werden, um das Problem der Multikollinearität zu vermeiden.
    • Variablen entfernen: Entferne eine der stark korrelierten Variablen aus dem Modell. Wenn beispielsweise Bildung und Berufserfahrung stark korreliert sind, könnte eine der beiden Variablen aus der Regression entfernt werden.
    • Regulierungstechniken: Using regularization techniques, such as Ridge Regression or Lasso Regression. Diese Techniken fügen Straftermine zu den Koeffizientenschätzungen hinzu, die helfen können, die Effekte der Multikollinearität zu reduzieren.

Aufgabe 2)

Überwachte und unüberwachte Lernmethoden: Überwachte Lernmethoden verwenden gelabelte Trainingsdaten, um Modelle zu trainieren, wohingegen unüberwachte Lernmethoden ungelabelte Daten nutzen, um Muster zu entdecken.

  • Überwachte Lernmethoden: Zuordnung von Eingaben zu Ausgaben (\textit{input-output mapping})
  • Unüberwachte Lernmethoden: Finden von Strukturen und Mustern in Daten
  • Beispiele überwacht: Lineare Regression, Klassifikation
  • Beispiele unüberwacht: Clusteranalyse, Dimensionsreduktion
  • Überwachte Methoden benötigen gelabelte Daten
  • Unüberwachte Methoden arbeiten mit ungelabelten Daten

a)

Teilaufgabe 1: Gegeben sei ein Datensatz mit Verkaufszahlen eines Online-Händlers, der verschiedene Produktkategorien umfasst (z.B. Elektronik, Kleidung und Bücher). Es liegen sowohl die Verkaufszahlen (in Einheiten) als auch Informationen über Werbekampagnen vor, bei denen Produkte beworben wurden. Deine Aufgabe ist es, ein geeignetes Modell zu entwickeln, welches die Effektivität der Werbekampagnen misst. Gehe wie folgt vor:

  • a) Bestimme, ob Du eine überwachte oder eine unüberwachte Lernmethode verwendest. Begründe Deine Entscheidung.
  • b) Schlage einen konkreten Algorithmus vor und erkläre, wie der Algorithmus in diesem Szenario zur Anwendung kommen würde.
  • c) Formuliere die mathematische Darstellung des Modells. Nimm dazu an, dass die Verkaufszahlen die abhängige Variable (y) und die Ausgaben für Werbekampagnen die unabhängige Variable (X) sind.

Lösung:

Lösung zur Teilaufgabe 1:

a) Bestimmen der Lernmethode:
  • Du solltest eine überwachte Lernmethode verwenden. Der Hauptgrund dafür ist, dass Du gelabelte Daten hast. In diesem Fall sind die Verkaufszahlen (in Einheiten) die Zielvariable (abhängige Variable), und die Informationen über die Werbekampagnen (z.B. Ausgaben) sind die Merkmale (unabhängige Variablen).
b) Algorithmusvorschlag:
  • Ein geeigneter Algorithmus für dieses Problem ist die lineare Regression. Die lineare Regression ist ein überwachter Lernalgorithmus, der gut zur Vorhersage numerischer Zielvariablen geeignet ist.
  • In diesem Szenario könntest Du die lineare Regression verwenden, um zu modellieren, wie die Verkaufszahlen (abhängige Variable) durch die Ausgaben für Werbekampagnen (unabhängige Variable) beeinflusst werden. Dadurch kannst Du die Effektivität der Werbekampagnen messen.
c) Mathematische Darstellung des Modells:
  • Angenommen, die Verkaufszahlen \(y\) sind die abhängige Variable und die Ausgaben für Werbekampagnen \(X\) sind die unabhängige Variable.
  • Das lineare Regressionsmodell kann wie folgt dargestellt werden:
    • Lineare Beziehung:
    • \[y = \beta_0 + \beta_1 X + \epsilon\]
    • Mehrfache unabhängige Variablen oder komplexere Beziehung (falls mehrere Faktoren berücksichtigt werden):
    • \[y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \epsilon\]
  • In dieser Gleichung sind:
    • \( y \): Verkaufszahlen
    • \( X \): Ausgaben für Werbekampagnen
    • \( \beta_0, \beta_1, ..., \beta_n \): Koeffizienten des Modells, die geschätzt werden müssen
    • \( \epsilon \): Residualterm, der die Differenz zwischen den beobachteten und den vorhergesagten Werten darstellt
Zusammenfassung:
  • Für die vorliegende Aufgabe ist eine überwachte Lernmethode, konkret die lineare Regression, geeignet.
  • Das lineare Regressionsmodell ermöglicht es Dir, die Beziehung zwischen den Werbekampagnenausgaben und den Verkaufszahlen zu quantifizieren und dadurch die Effektivität der Werbekampagnen zu messen.

b)

Teilaufgabe 2: Betrachte denselben Datensatz, jedoch ohne die Informationen über die Werbekampagnen. Deine Aufgabe ist es, ein Modell zu entwickeln, das unterschiedliche Produktkategorien segmentiert, um Marktanalysen durchzuführen. Gehe wie folgt vor:

  • a) Bestimme, ob Du eine überwachte oder eine unüberwachte Lernmethode verwendest. Begründe Deine Entscheidung.
  • b) Schlage einen konkreten Algorithmus vor und erkläre, wie der Algorithmus in diesem Szenario zur Anwendung kommen würde.
  • c) Führe eine mathematische Erklärung des Algorithmus durch und beschreibe, wie die Segmentierung der Produktkategorien mathematisch modelliert wird.

Lösung:

Lösung zur Teilaufgabe 2:

a) Bestimmen der Lernmethode:
  • In diesem Fall solltest Du eine unüberwachte Lernmethode verwenden. Da keine Informationen über die Werbekampagnen vorhanden sind, fehlen die gelabelten Daten (d.h. es gibt keine Zielvariablen). Unüberwachte Lernmethoden sind geeignet, um Muster und Strukturen in den Daten zu entdecken, ohne dass gelabelte Daten erforderlich sind.
b) Algorithmusvorschlag:
  • Ein geeigneter Algorithmus für dieses Problem ist die Clusteranalyse, insbesondere der K-Means-Algorithmus. K-Means ist ein unüberwachter Lernalgorithmus, der die Daten in k Cluster segmentiert, basierend auf ihren Ähnlichkeiten.
  • In diesem Szenario wird der K-Means-Algorithmus verwendet, um die Produktkategorien anhand der Verkaufszahlen in verschiedene Gruppen zu segmentieren. Dies hilft bei der Marktanalyse, indem es ermöglicht, ähnliche Produktkategorien zu identifizieren und gezielt zu analysieren.
c) Mathematische Erklärung des Algorithmus:
  • Der K-Means-Algorithmus funktioniert wie folgt:
  1. Wähle eine Anzahl von Clustern k.
  2. Initialisiere k Clusterzentren (z.B. durch zufällige Auswahl von Datenpunkten).
  3. Weise jeden Datenpunkt dem nächstgelegenen Clusterzentrum zu.
  4. Berechne die neuen Clusterzentren als den Mittelwert der Datenpunkte in jedem Cluster.
  5. Wiederhole die Schritte 3 und 4, bis die Clusterzentren stabil sind (d.h. sich nicht mehr wesentlich ändern).
  • Mathematisch wird die Segmentierung der Produktkategorien wie folgt modelliert:
    • Angenommen, \(X = \{x_1, x_2, ..., x_n\}\) ist der Datensatz mit den Verkaufszahlen.
    • Der K-Means-Algorithmus minimiert die Summe der quadratischen Abstände zwischen den Datenpunkten und ihren jeweiligen Clusterzentren \(\mu_j\):
    • \[\sum_{i=1}^{n} \min_{j} \| x_i - \mu_j \|^2\]
  • In dieser Gleichung sind:
    • \(x_i\): Verkaufszahlen des i-ten Produkts
    • \(\mu_j\): Clusterzentrum des j-ten Clusters
    • \(\| x_i - \mu_j \|^2\): Quadratischer Abstand zwischen dem Datenpunkt \(x_i\) und dem Clusterzentrum \(\mu_j\)
    Zusammenfassung:
    • Für diese Aufgabe ist eine unüberwachte Lernmethode, konkret der K-Means-Algorithmus, geeignet.
    • Der K-Means-Algorithmus segmentiert die Produktkategorien basierend auf den Verkaufszahlen, was zur Marktanalyse und Identifikation ähnlicher Produktgruppen verwendet werden kann.

    Aufgabe 3)

    Stell Dir vor, Du untersuchst die Auswirkungen von zusätzlicher Schulbildung auf das Einkommen. Dabei hast Du das Problem, dass die Entscheidung für mehr Schulbildung möglicherweise endogen ist – also von Faktoren beeinflusst wird, die auch das Einkommen beeinflussen, wie z.B. Intelligenz oder familiäre Unterstützung.

    Es stehen dir zwei Methoden zur Verfügung, um kausale Effekte abzuschätzen: Instrumentalvariablen (IV) und Paneldatenanalyse. Angenommen, Du hast Daten von mehreren Individuen über verschiedene Zeitpunkte hinweg, und eine mögliche Instrumentvariable ist die Nähe zu einer Schule, als exogene Variable.

    a)

    A) Erkläre zunächst, wie Du die Instrumentalvariablenmethode anwenden würdest, um den kausalen Effekt von zusätzlicher Schulbildung auf Einkommen abzuschätzen. Gehe dabei auf die Bedingungen ein, die ein gutes Instrument erfüllen muss, und beschreibe, wie mit der IV-Methode geschätzt wird. Verwende dabei die Formel für den IV-Schätzer:

    \[ \hat{\beta}_{IV} = \frac{Cov(z,y)}{Cov(z,x)} \]

    Lösung:

    • Anwendung der Instrumentalvariablenmethode (IV-Methode):
      • 1. Problemstellung: Eine zentrale Herausforderung bei der Schätzung des kausalen Effekts von zusätzlicher Schulbildung auf das Einkommen ist die Endogenität. Diese entsteht, wenn die Entscheidung für mehr Schulbildung durch Faktoren beeinflusst wird, die auch das Einkommen beeinflussen. Beispiele hierfür sind Intelligenz oder familiäre Unterstützung.
      • 2. Was ist ein Instrument? Ein Instrument ist eine Variable, die zwei wesentliche Bedingungen erfüllen muss: - Relevanz: Die Instrumentvariable (z) muss stark mit der endogenen erklärenden Variable (x) korreliert sein. - Exogenität: Die Instrumentvariable darf nicht mit den Störgrößen (u) des Modells korreliert sein, also keinen direkten Einfluss auf das Einkommen (y) haben, außer durch ihre Wirkung auf die Schulbildung (x).
      • 3. Wahl des Instruments: In diesem Beispiel könnte die Nähe zu einer Schule eine geeignete Instrumentvariable sein. Diese Variable erfüllt wahrscheinlich beide Bedingungen: - Relevanz: Die Nähe zu einer Schule beeinflusst die Entscheidung, zusätzliche Schulbildung in Anspruch zu nehmen. - Exogenität: Die Nähe zu einer Schule hat keinen direkten Einfluss auf das Einkommen, außer durch den Effekt der zusätzlichen Schulbildung.
      • 4. IV-Schätzer: Die IV-Methode schätzt den kausalen Effekt von schulischer Ausbildung (x) auf Einkommen (y) mittels der Instrumentvariablen (z). Der IV-Schätzer ist definiert als: \[ \hat{\beta}_{IV} = \frac{Cov(z,y)}{Cov(z,x)} \] - Berechnung der Kovarianzen: Zunächst wird die Kovarianz zwischen der Instrumentvariable (z) und dem Einkommen (y) berechnet. - Berechnung der Kovarianzen: Anschließend wird die Kovarianz zwischen der Instrumentvariable (z) und der Schulbildung (x) berechnet. - Schätzung von \hat{\beta}_{IV}: Der IV-Schätzer wird dann durch das Verhältnis dieser beiden Kovarianzen bestimmt.
      • 5. Interpretation des IV-Schätzers: Der geschätzte Koeffizient \hat{\beta}_{IV} gibt den kausalen Effekt der zusätzlichen Schulbildung auf das Einkommen an, bereinigt um mögliche endogene Effekte.

    b)

    B) Diskutiere die Möglichkeit, die Paneldatenanalyse für dieses Problem zu nutzen. Wähle dabei zwischen dem Fixed-Effects- und dem Random-Effects-Modell aus. Schreibe das gewählte Modell in mathematischer Form auf und erläutere, welche Annahmen dabei vorausgesetzt werden. Gehe auch darauf ein, wie unbeobachtete Heterogenität in diesem Modell kontrolliert werden kann. Verwendet die folgende Formel für das Fixed-Effects-Modell:

    \[ y_{it} = \alpha_i + \beta x_{it} + \epsilon_{it} \]

    oder die folgende Formel für das Random-Effects-Modell:

    \[ y_{it} = \alpha + \beta x_{it} + u_i + \epsilon_{it} \]

    Lösung:

    • Diskussion der Nutzung der Paneldatenanalyse:
      • 1. Problemstellung: Im Kontext der Untersuchung der Auswirkungen von zusätzlicher Schulbildung auf das Einkommen, bei möglichen endogenen Einflüssen wie Intelligenz oder familiärer Unterstützung, kann die Paneldatenanalyse eine nützliche Methode sein, um unbeobachtete Heterogenität zu kontrollieren.
      • 2. Wahl des Modells: Es gibt zwei Hauptansätze der Paneldatenanalyse, Fixed-Effects (FE) und Random-Effects (RE). Die Wahl zwischen diesen beiden Modellen hängt von den spezifischen Annahmen und den Daten ab. Hier werden beide Modelle im Detail erläutert:
      • Fixed-Effects-Modell: Das Fixed-Effects-Modell kontrolliert für zeitinvariante, unbeobachtete Heterogenität, indem es individuelle Effekte (\(\alpha_i\)) für jede Person berücksichtigt. Die mathematische Form des FE-Modells lautet: \[ y_{it} = \alpha_i + \beta x_{it} + \epsilon_{it} \] - \(\alpha_i\): Individuenspezifische Effekte (zeitinvariant) - \(\beta\): Kausaler Effekt der zusätzlichen Schulbildung auf das Einkommen - \(x_{it}\): Schulbildung des Individuums i zum Zeitpunkt t - \(\epsilon_{it}\): Fehlerterm Annahmen: a) Die individuellen Effekte (\(\alpha_i\)) sind korreliert mit den erklärenden Variablen (\(x_{it}\)). b) Unbeobachtete, zeitinvariante Heterogenität wird durch \(\alpha_i\) erfasst. Vorteile: - Kontrolliert für alle zeitinvarianten unbeobachteten Unterschiede zwischen Individuen. Nachteile: - Schätzt nur die Effekte zeitvariabler Variablen.
      • Random-Effects-Modell: Das Random-Effects-Modell berücksichtigt individuelle Effekte als zufällige Störgrößen (\(u_i\)). Die mathematische Form des RE-Modells lautet: \[ y_{it} = \alpha + \beta x_{it} + u_i + \epsilon_{it} \] - \(\alpha\): Konstanter Term für alle Individuen - \(\beta\): Kausaler Effekt der zusätzlichen Schulbildung auf das Einkommen - \(x_{it}\): Schulbildung des Individuums i zum Zeitpunkt t - \(u_i\): Individuenspezifische zufällige Effekte - \(\epsilon_{it}\): Fehlerterm Annahmen: a) Die individuellen Effekte (\(u_i\)) sind nicht korreliert mit den erklärenden Variablen (\(x_{it}\)). Vorteile: - Effizienter als das FE-Modell, wenn die Annahme der Nicht-Korrelation erfüllt ist. Nachteile: - Kann zu verzerrten Schätzungen führen, wenn \(u_i\) tatsächlich mit \(x_{it}\) korreliert ist.
      • 3. Kontrolle unbeobachteter Heterogenität: Beide Modelle kontrollieren unbeobachtete Heterogenität, jedoch auf unterschiedliche Weise: - Fe-Modell: Durch Einbeziehung individueller Effekte wird angenommen, dass alle Unterschiede, die zeitinvariant sind, bereits durch \(\alpha_i\) erfasst werden. Diese Methode ist robust gegen die Korrelation zwischen \(\alpha_i\) und \(x_{it}\). - RE-Modell: Geht davon aus, dass individuelle Unterschiede zufällig und unkorreliert mit den erklärenden Variablen sind. Dies ist weniger restriktiv, aber anfällig für Verzerrungen, wenn diese Annahme verletzt wird.
      • 4. Schlussfolgerung: In Fällen, in denen endogene Faktoren wie Intelligenz oder familiäre Unterstützung eine Rolle spielen, könnte das Fixed-Effects-Modell vorzuziehen sein, da es besser für die Kontrolle zeitinvarianter unbeobachteter Heterogenität geeignet ist. Wenn jedoch die Annahme der Nicht-Korrelation plausibel erscheint, kann das Random-Effects-Modell effizientere Schätzungen liefern.

    Aufgabe 4)

    Angenommen, Du arbeitest an einer ökonometrischen Analyse, die das Einkommen in Abhängigkeit von der Bildung und der Berufserfahrung untersucht. Du hast zwei Datensätze:

    • Datensatz 1: Enthält die Variablen ID, Bildungsjahre, Berufserfahrung.
    • Datensatz 2: Enthält die Variablen ID und Einkommen.

    Diese Datensätze müssen bereinigt, transformiert und zusammengeführt werden, bevor Du eine Analyse durchführen kannst.

    a)

    Teilaufgabe 1: Datenbereinigung und -transformation

    1. Bereinige die Daten, indem Du fehlende Werte in den Variablen Bildungsjahre und Berufserfahrung durch den Mittelwert der jeweiligen Variablen ersetzt. Schreibe den entsprechenden Pandas-Code.
    2. Transformiere die Variable Einkommen mit einer Log-Transformation. Begründe, warum diese Transformation in ökonometrischen Analysen sinnvoll sein kann.
    import pandas as pd# Annahme: Laden der Datensätze in pandas DataFrames# df1 = pd.read_csv('datensatz1.csv')# df2 = pd.read_csv('datensatz2.csv')df1.fillna(df1.mean(), inplace=True)df2['Einkommen_Log'] = df2['Einkommen'].apply(lambda x: np.log(x))

    Lösung:

    Lösung für Teilaufgabe 1: Datenbereinigung und -transformation

    1. Bereinige die Daten, indem Du fehlende Werte in den Variablen Bildungsjahre und Berufserfahrung durch den Mittelwert der jeweiligen Variablen ersetzt. Schreibe den entsprechenden Pandas-Code:
     import pandas as pd import numpy as np # Annahme: Laden der Datensätze in pandas DataFrames df1 = pd.read_csv('datensatz1.csv') df2 = pd.read_csv('datensatz2.csv')  # Bereinigen der Daten: fehlende Werte durch den Mittelwert ersetzen df1['Bildungsjahre'].fillna(df1['Bildungsjahre'].mean(), inplace=True) df1['Berufserfahrung'].fillna(df1['Berufserfahrung'].mean(), inplace=True) 
    1. Transformiere die Variable Einkommen mit einer Log-Transformation. Begründe, warum diese Transformation in ökonometrischen Analysen sinnvoll sein kann:
       df2['Einkommen_Log'] = df2['Einkommen'].apply(lambda x: np.log(x)) 
      Begründung: Eine Log-Transformation der Einkommensvariable kann in ökonometrischen Analysen aus mehreren Gründen sinnvoll sein:
      • Normalisierung der Verteilung: Einkommen sind oft rechtsschief verteilt. Durch die Log-Transformation kann die Verteilung normaler gemacht werden, was viele statistische Modelle begünstigt, die Normalverteilungen voraussetzen.
      • Linearisierung von Beziehungen: Häufig liegt zwischen Einkommen und anderen Variablen eine exponentielle Beziehung vor. Eine Log-Transformation kann diese Beziehung linearer machen und die Interpretation und Modellierung vereinfachen.
      • Skaleneffekte: Eine Log-Transformation verringert die Variabilität der Daten und kann die Auswirkungen von Ausreißern minimieren.

    b)

    Teilaufgabe 2: Feature-Engineering und Datenzusammenführung

    1. Erstelle eine Dummy-Variable für die Variable Bildungsjahre, die den Wert 1 annimmt, wenn Bildungsjahre größer als 12 ist (High-School-Abschluss), und 0 sonst. Schreibe den entsprechenden Pandas-Code.
    2. Führe die beiden Datensätze über die ID-Variable zusammen. Achte darauf, dass der resultierende Master-Datensatz alle relevanten Variablen enthält. Schreibe den entsprechenden Pandas-Code.
    # Dummy-Variable erstellendf1['HighSchool'] = df1['Bildungsjahre'].apply(lambda x: 1 if x > 12 else 0)# Datenzusammenführungdf_master = pd.merge(df1, df2, on='ID')

    Lösung:

    Lösung für Teilaufgabe 2: Feature-Engineering und Datenzusammenführung

    1. Erstelle eine Dummy-Variable für die Variable Bildungsjahre, die den Wert 1 annimmt, wenn Bildungsjahre größer als 12 ist (High-School-Abschluss), und 0 sonst. Schreibe den entsprechenden Pandas-Code:
    import pandas as pd# Annahme: Laden der Datensätze in pandas DataFrames# df1 = pd.read_csv('datensatz1.csv')# df2 = pd.read_csv('datensatz2.csv')# Dummy-Variable erstellendf1['HighSchool'] = df1['Bildungsjahre'].apply(lambda x: 1, if x > 12 else 0)
    1. Führe die beiden Datensätze über die ID-Variable zusammen. Achte darauf, dass der resultierende Master-Datensatz alle relevanten Variablen enthält. Schreibe den entsprechenden Pandas-Code:
    # Datenzusammenführungdf_master = pd.merge(df1, df2, on='ID')
    Sign Up

    Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

    Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

    Kostenloses Konto erstellen

    Du hast bereits ein Konto? Anmelden