Econometrics - Exam.pdf

Econometrics - Exam
Econometrics - Exam Aufgabe 1) Betrachte die einfache lineare Regression, die verwendet wird, um das Verhältnis zwischen der abhängigen Variable \( Y \) und der unabhängigen Variable \( X \) zu analysieren. Die Funktion wird durch die Gleichung \( Y = \beta_0 + \beta_1 X + \epsilon \) dargestellt, wobei \( \beta_0 \) der Achsenabschnitt und \( \beta_1 \) der Steigungskoeffizient ist. Die Schätzung...

© StudySmarter 2024, all rights reserved.

Econometrics - Exam

Aufgabe 1)

Betrachte die einfache lineare Regression, die verwendet wird, um das Verhältnis zwischen der abhängigen Variable \( Y \) und der unabhängigen Variable \( X \) zu analysieren. Die Funktion wird durch die Gleichung \( Y = \beta_0 + \beta_1 X + \epsilon \) dargestellt, wobei \( \beta_0 \) der Achsenabschnitt und \( \beta_1 \) der Steigungskoeffizient ist. Die Schätzung der Koeffizienten erfolgt mithilfe der Methode der kleinsten Quadrate (OLS).

a)

(a) Angenommen, Du hast Daten von zehn Beobachtungen sowohl für \( Y \) als auch für \( X \) gesammelt. Berechne die Koeffizienten \( \beta_0 \) und \( \beta_1 \) basierend auf den folgenden Daten:

  • \( \sum X_i = 50 \), \( \sum Y_i = 100 \)
  • \( \sum (X_i - \bar{X})(Y_i - \bar{Y}) = 60 \)
  • \( \sum (X_i - \bar{X})^2 = 40 \)

Lösung:

Um die Koeffizienten \( \beta_0 \) und \( \beta_1 \) der einfachen linearen Regression zu berechnen, verwenden wir die Methode der kleinsten Quadrate (OLS). Die Formeln für die Koeffizienten lauten:

  • \( \beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} \)
  • \( \beta_0 = \bar{Y} - \beta_1 \bar{X} \)

Nachdem wir die Summen der Beobachtungen kennen, können wir zunächst den Mittelwert von \( X \) und \( Y \) berechnen:

  • \( \bar{X} = \frac{\sum X_i}{n} = \frac{50}{10} = 5 \)
  • \( \bar{Y} = \frac{\sum Y_i}{n} = \frac{100}{10} = 10 \)

Jetzt können wir \( \beta_1 \) berechnen:

  • \( \beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} = \frac{60}{40} = 1.5 \)

Als nächstes berechnen wir \( \beta_0 \):

  • \( \beta_0 = \bar{Y} - \beta_1 \bar{X} = 10 - 1.5 \cdot 5 = 2.5 \)

Die geschätzten Koeffizienten sind also:

  • \( \beta_0 = 2.5 \)
  • \( \beta_1 = 1.5 \)

b)

(b) Bestimme das Bestimmtheitsmaß \( R^2 \) für das obige Regressionsmodell, wenn die Totale Quadratsumme (TSS) 75 beträgt und die erklärte Quadratsumme (ESS) 60 beträgt. Zeige Deine Berechnungen im Detail.

Lösung:

Um das Bestimmtheitsmaß \( R^2 \) für das Regressionsmodell zu berechnen, verwenden wir die folgende Formel:

  • \( R^2 = \frac{\text{ESS}}{\text{TSS}} \)

Hierbei stehen:

  • ESS für die erklärte Quadratsumme (Explained Sum of Squares)
  • TSS für die totale Quadratsumme (Total Sum of Squares)

Gemäß den angegebenen Daten haben wir:

  • \( \text{TSS} = 75 \)
  • \( \text{ESS} = 60 \)

Wir können nun \( R^2 \) berechnen:

  • \( R^2 = \frac{\text{ESS}}{\text{TSS}} = \frac{60}{75} = 0.8 \)

Das Bestimmtheitsmaß \( R^2 \) für das obige Regressionsmodell beträgt also 0,8 oder 80%. Dies bedeutet, dass 80% der Variation in der abhängigen Variable \( Y \) durch die unabhängige Variable \( X \) erklärt werden kann.

c)

(c) Führe einen t-Test für den Steigungskoeffizienten \( \beta_1 \) durch, unter der Annahme, dass die Standardabweichung des geschätzten Koeffizienten \( \beta_1 \) 0,5 beträgt. Teste auf einem Signifikanzniveau von 5%, ob \( \beta_1 \) signifikant von Null verschieden ist.

Lösung:

Um einen t-Test für den Steigungskoeffizienten \( \beta_1 \) durchzuführen, verwenden wir die folgende Teststatistik:

  • \( t = \frac{\hat{\beta_1} - \beta_{1,0}}{SE(\hat{\beta_1})} \)

Dabei ist:

  • \( \hat{\beta_1} \) der geschätzte Wert von \( \beta_1 \),
  • \( \beta_{1,0} \) der hypothetische Wert von \( \beta_1 \), der gewöhnlich auf 0 gesetzt wird,
  • \( SE(\hat{\beta_1}) \) die Standardabweichung von \( \hat{\beta_1} \).

Gegeben:

  • \( \hat{\beta_1} = 1.5 \)
  • \( \beta_{1,0} = 0 \)
  • \( SE(\hat{\beta_1}) = 0.5 \)

Jetzt berechnen wir die t-Statistik:

  • \( t = \frac{1.5 - 0}{0.5} = \frac{1.5}{0.5} = 3 \)

Um zu testen, ob \( \beta_1 \) signifikant von Null verschieden ist, vergleichen wir den berechneten t-Wert mit dem kritischen t-Wert aus der t-Distribution. Ein t-Test auf einem Signifikanzniveau von 5% (\( \alpha = 0.05 \)) und einem zweiseitigen Test erfordert:

  • Kritischer t-Wert für n-2 Freiheitsgrade (n=10, daher df=8) beträgt ungefähr 2.306 (nachschlagen in der t-Tabelle).

Der berechnete t-Wert von 3 liegt außerhalb des Intervalls [-2.306, 2.306].

Da der berechnete t-Wert größer als der kritische t-Wert ist, lehnen wir die Nullhypothese ab.

Fazit: Der Steigungskoeffizient \( \beta_1 \) ist auf einem Signifikanzniveau von 5% signifikant von Null verschieden.

d)

(d) Diskutiere die möglichen Probleme der einfachen linearen Regression. Was könnten mögliche Auswirkungen von Autokorrelation, Heteroskedastizität und Multikollinearität sein?

Lösung:

Bei der Anwendung der einfachen linearen Regression können verschiedene Probleme auftreten, die die Qualität der Schätzungen und die Gültigkeit der Modelle beeinflussen. Zu den häufigsten Problemen gehören Autokorrelation, Heteroskedastizität und Multikollinearität. Hier sind die möglichen Auswirkungen jedes dieser Probleme:

  • Autokorrelation: Autokorrelation tritt auf, wenn die Fehlerterme (Residuals) in einem Regressionsmodell nicht unabhängig voneinander sind. Dies bedeutet, dass aufeinanderfolgende Fehlerterme korreliert sind. Auswirkungen: - Die Schätzungen der Standardfehler können inkonsistent und verzerrt sein, was zu invaliden t-Tests und Konfidenzintervallen führt. - Das Modell kann zu optimistische Schätzungen der Vorhersagegenauigkeit liefern.
  • Heteroskedastizität: Heteroskedastizität liegt vor, wenn die Varianz der Fehlerterme nicht konstant ist, sondern sich mit einem anderen Prädiktor verändert. Auswirkungen: - Die OLS-Schätzer bleiben zwar unverzerrt, sind aber nicht mehr effizient. - Schätzungen der Standardfehler und der Varianz der Schätzungen können inkonsistent sein, was wiederum zu invaliden t-Tests und Konfidenzintervallen führt. - Heteroskedastizität kann die Interpretation des Modells erschweren und die Zuverlässigkeit der Vorhersagen beeinträchtigen.
  • Multikollinearität: Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen stark korreliert sind. Bei der einfachen linearen Regression ist dies weniger relevant, aber bei der multiplen linearen Regression ist es ein häufiges Problem. Auswirkungen: - Es kann schwierig werden, die einzelnen Beiträge der unabhängigen Variablen zu interpretieren, da hohe Korrelationen zu schwankenden Koeffizientenschätzungen führen können. - Die Variablen können als nicht signifikant erscheinen, obwohl sie tatsächlich einen signifikanten Einfluss auf die abhängige Variable haben. - Das Modell kann instabil werden, und kleine Änderungen in den Daten können zu großen Änderungen in den Schätzungen der Koeffizienten führen.

Diese Probleme können Maßnahmen zur Diagnose und Korrektur erfordern, wie zum Beispiel:

  • Verwendung von robusten Standardfehlern zur Bewältigung von Heteroskedastizität.
  • Verwendung von Autokorrelations-Tests wie dem Durbin-Watson-Test zur Diagnose von Autokorrelation.
  • Entscheidung für Variablenauswahltechniken oder Regularisierungstechniken, um Multikollinearität zu mildern.

Aufgabe 2)

Angenommen, Du bist ein Datenanalyst bei einem großen Einzelhändler. Dein Ziel ist es, den Umsatz (Y) vorherzusagen, basierend auf mehreren unabhängigen Variablen: Werbeausgaben in TV (X1), Werbeausgaben in Radio (X2) und Werbeausgaben in Zeitungen (X3). Du verwendest das Modell der mehrfachen linearen Regression, um Deinen Schätzungen nachzugehen.

a)

  • Formuliere das multiple lineare Regressionsmodell, das Du verwenden wirst, und erkläre, welche Rolle die Koeffizienten \(\beta_0, \beta_1, \beta_2, \beta_3\) sowie der Fehlerterm \(\varepsilon\) in diesem Modell spielen.

Lösung:

Um den Umsatz (Y) basierend auf den Werbeausgaben in TV (X1), Radio (X2) und Zeitungen (X3) vorherzusagen, verwendest Du ein multiples lineares Regressionsmodell. Das Modell lässt sich wie folgt formulieren:

Modell:

  • Die allgemeine Form des Modells lautet:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \boldsymbol{\text{ε}} \]

  • Erklärung der Koeffizienten und des Fehlerterms:
  • \( \beta_0 \) : Der Achsenabschnitt oder Interzept. Diese Konstante repräsentiert den geschätzten Umsatz, wenn die Werbeausgaben in TV, Radio und Zeitungen gleich Null sind.
  • \( \beta_1 \): Der Koeffizient für die TV-Werbeausgaben. Er misst den Einfluss der TV-Werbeausgaben auf den Umsatz, wenn alle anderen Variablen konstant gehalten werden.
  • \( \beta_2 \): Der Koeffizient für die Radio-Werbeausgaben. Er misst den Einfluss der Radio-Werbeausgaben auf den Umsatz, wenn alle anderen Variablen konstant gehalten werden.
  • \( \beta_3 \): Der Koeffizient für die Zeitungswerbeausgaben. Er misst den Einfluss der Zeitungswerbeausgaben auf den Umsatz, wenn alle anderen Variablen konstant gehalten werden.
  • \( \boldsymbol{\text{ε}} \): Der Fehlerterm. Dieser stellt die Differenz zwischen dem tatsächlichen Umsatz und dem durch das Modell vorhergesagten Umsatz dar. Er umfasst alle Einflussfaktoren auf den Umsatz, die nicht durch die unabhängigen Variablen (X1, X2, X3) erklärt werden.

b)

  • Schreibe die Matrixdarstellung der OLS-Schätzerformel für die Koeffizienten hin und erkläre Schritt für Schritt, wie die Koeffizienten mit Hilfe der Methode der kleinsten Quadrate (OLS) geschätzt werden: \[\hat{\beta} = (X'X)^{-1}X'Y\]

Lösung:

Die Methode der kleinsten Quadrate (Ordinary Least Squares, OLS) wird verwendet, um die Koeffizienten des multiplen linearen Regressionsmodells zu schätzen. Die Matrixdarstellung der OLS-Schätzerformel lautet:

\[ \hat{\beta} = (X'X)^{-1}X'Y \]

Matrixnotation und Schritte:

  • Matrixnotation:

Die Vektoren und Matrizen in der Formel sind wie folgt definiert:

  • \( Y \): Vektor der abhängigen Variable (Umsatz), Dimension: \( n \times 1 \)
  • \( X \): Matrix der unabhängigen Variablen (einschließlich Interzept), Dimension: \( n \times k \). Hier hat \( X \) die Form:

\[ X = \begin{pmatrix} 1 & X_{11} & X_{12} & X_{13} \ 1 & X_{21} & X_{22} & X_{23} \ \vdots & \vdots & \vdots & \vdots \ 1 & X_{n1} & X_{n2} & X_{n3} \end{pmatrix} \]

  • \( \beta \): Vektor der Koeffizienten, Dimension: \( k \times 1 \). Hier hat \( \beta \) die Form:

\[ \beta = \begin{pmatrix} \beta_0 \ \beta_1 \ \beta_2 \ \beta_3 \end{pmatrix} \]

  • \( \hat{\beta} \): Vektor der geschätzten Koeffizienten, Dimension: \( k \times 1 \)
  • \( X' \): Transponierte der Matrix \( X \), Dimension: \( k \times n \)
  • \( (X'X)^{-1} \): Inverse der Matrix \( X'X \), Dimension: \( k \times k \)
  • Schritt-für-Schritt Erklärung:
  • 1. Bildung der Matrix \( X' \) und Produkt von \( X'X \):

Transponiere die Matrix \( X \) und multipliziere sie mit \( X \).

\[ X'X \]

  • 2. Inversion:

Berechne die Inverse der resultierenden Matrix \( X'X \). Diese Inverse existiert nur, wenn \( X'X \) eine nicht-singuläre (invertierbare) Matrix ist.

  • 3. Bildung des Produkts von \( X'Y \):

Multipliziere die transponierte Matrix \( X' \) mit dem Vektor \( Y \).

  • 4. Finale Berechnung der Koeffizienten:

Multipliziere die Inverse \( (X'X)^{-1} \) mit dem Produkt \( X'Y \) um die geschätzten Koeffizienten \( \hat{\beta} \) zu erhalten.

\[ \hat{\beta} = (X'X)^{-1}X'Y \]

  • Schlussfolgerung:

Die geschätzten Koeffizienten \( \hat{\beta} \) minimieren die Summe der quadrierten Abweichungen zwischen den beobachteten und den vorhergesagten Werten der abhängigen Variable (Umsatz). Diese Methode ermöglicht es, die lineare Beziehung zwischen den unabhängigen (TV, Radio, Zeitungen) und der abhängigen Variable (Umsatz) zu schätzen.

c)

  • Beschreibe die Voraussetzungen, die für die Schätzung der Koeffizienten mit der Methode der kleinsten Quadrate erfüllt sein müssen. Erläutere dabei insbesondere die Bedeutung von Homoskedastizität und keine perfekte Multikollinearität sowie wie diese Voraussetzungen in der Praxis geprüft werden können.

Lösung:

Damit die Schätzung der Koeffizienten mit der Methode der kleinsten Quadrate (OLS) gültig und zuverlässig ist, müssen bestimmte Voraussetzungen erfüllt sein:

  • 1. Lineare Beziehung:

Es muss eine lineare Beziehung zwischen den unabhängigen Variablen (X1, X2, X3) und der abhängigen Variable (Y) existieren. Dies bedeutet, dass das Modell korrekt spezifiziert ist und keine relevanten Variablen fehlen.

  • 2. Unabhängigkeit der Fehlerterme:

Die Fehlerterme (\( \varepsilon \)) sollten unkorreliert sein. Dies bedeutet, dass die Fehlerterme unabhängig voneinander sind, was auch als keine Autokorrelation bekannt ist.

  • 3. Keine perfekte Multikollinearität:

Die unabhängigen Variablen (X1, X2, X3) sollten nicht perfekt linear miteinander korrelieren. Perfekte Multikollinearität führt dazu, dass die Matrix \( X'X \) nicht invertierbar ist, was bedeutet, dass die OLS-Schätzer nicht berechnet werden können.

Prüfung: In der Praxis kann Multikollinearität durch den Variance Inflation Factor (VIF) geprüft werden. Ein VIF-Wert größer als 10 deutet auf ein Problem hin.

  • 4. Homoskedastizität:

Die Varianz der Fehlerterme sollte konstant sein (Homoskedastizität). Dies bedeutet, dass die Streuung der Residuen gleichmäßig über alle Werte der unabhängigen Variablen verteilt ist.

Prüfung: Homoskedastizität kann durch das Plotten der Residuen gegen die vorhergesagten Werte geprüft werden. Wenn die Streuung der Residuen zufällig und gleichmäßig verteilt ist, liegt Homoskedastizität vor. Alternativ können formale Tests wie der Breusch-Pagan-Test verwendet werden.

  • 5. Normalverteilung der Fehlerterme:

Die Fehlerterme sollten normalverteilt sein, insbesondere für kleinere Stichproben. Dies ist wichtig für die statistische Inferenz (Hypothesentests und Konfidenzintervalle).

Prüfung: Normalverteilung der Residuen kann durch QQ-Plots geprüft werden oder durch Tests wie den Shapiro-Wilk-Test.

  • 6. Exogene unabhängige Variablen:

Die unabhängigen Variablen (X1, X2, X3) sollten exogen sein, das heißt, sie sollten nicht mit dem Fehlerterm korreliert sein. Wenn dies nicht der Fall ist, spricht man von Endogenität, was zu verzerrten Schätzern führt.

Bedeutung und praktische Prüfung:

  • Homoskedastizität: Homoskedastizität ist wichtig, da Heteroskedastizität (nicht-konstante Varianz der Fehlerterme) zu ineffizienten und verzerrten Schätzungen führen kann. In der Praxis wird Homoskedastizität oft durch grafische Inspektion der Residuen oder durch formale Tests wie den Breusch-Pagan-Test oder den White-Test überprüft.
  • Keine perfekte Multikollinearität: Perfekte Multikollinearität bedeutet, dass eine oder mehrere unabhängige Variablen eine exakte lineare Funktion anderer unabhängiger Variablen sind. Dies führt dazu, dass die OLS-Schätzer nicht eindeutig sind. In der Praxis kann Multikollinearität durch den Variance Inflation Factor (VIF) überprüft werden, wobei hohe VIF-Werte auf starke Multikollinearität hinweisen.

Diese Voraussetzungen sind notwendig, um sicherzustellen, dass die OLS-Schätzer unverzerrt, konsistent und effizient sind. Werden diese Voraussetzungen nicht erfüllt, können alternative Methoden oder Anpassungen notwendig sein, um verlässliche Schätzungen zu erhalten.

Aufgabe 3)

Die Stadtverwaltung von Nürnberg möchte das monatliche Verkehrsaufkommen in der Innenstadt analysieren und vorhersagen. Dazu werden historische Daten von Januar 2018 bis Dezember 2022 verwendet. Du wirst gebeten, ein ARIMA-Modell zu entwickeln, um zukünftige Verkehrsmuster zu prognostizieren. Bitte beachte, dass für die Analyse die folgenden Schritte notwendig sind: 1) Identifikation der Modellspezifikationen, 2) Schätzung der Modellparameter, und 3) Diagnose und Modellvalidierung.

a)

Identifiziere geeignete Werte für die Parameter p, d, und q des ARIMA-Modells auf Basis der gegebenen Datenreihen. Stelle sicher, dass Du die nicht-stationäre Komponente entfernst und erkläre Deinen Entscheidungsfindungsschritt.

Lösung:

  • 1. Daten Inspektion und plotten:Zuerst solltest Du die historischen Verkehrsdaten von Januar 2018 bis Dezember 2022 grafisch darstellen, um einen ersten Eindruck über die Daten zu bekommen und mögliche Trends oder Saisonalitäten zu identifizieren.
import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('verkehrsdaten.csv', parse_dates=['Datum'], index_col='Datum')data.plot(figsize=(12, 6))plt.title('Monatliches Verkehrsaufkommen in Nürnberg (2018-2022)')plt.ylabel('Verkehrsaufkommen')plt.xlabel('Zeit')plt.show()
  • 2. Stationarität überprüfen:Um sicherzustellen, dass das ARIMA-Modell angemessen ist, müssen wir die Zeitreihe stationär machen. Das bedeutet, dass Mittelwert und Varianz der Zeitreihe stabil sein müssen. Dies kann durch den Augmented Dickey-Fuller (ADF)-Test überprüft werden. Wenn die Zeitreihe nicht stationär ist, können wir sie differenzieren.
from statsmodels.tsa.stattools import adfullerresult = adfuller(data['Verkehrsaufkommen'])print('ADF Statistic:', result[0])print('p-value:', result[1])
  • Wenn der p-Wert größer als 0.05 ist, weist dies auf eine Nicht-Stationarität hin, und wir müssen die Daten differenzieren. Initial setzen wir d = 1, d.h. wir nehmen die erste Differenz.
differenced_data = data.diff().dropna()result = adfuller(differenced_data['Verkehrsaufkommen'])print('ADF Statistic:', result[0])print('p-value:', result[1])
  • 3. ACF und PACF Plots analysieren:Um die Parameter p (Anzahl der Autoregressionsbegriffe) und q (Anzahl der Moving-Average-Begriffe) festzulegen, sollten wir die Autokorrelationsfunktion (ACF) und die partielle Autokorrelationsfunktion (PACF) der differenzierten Zeitreihe analysieren.
from statsmodels.graphics.tsaplots import plot_acf, plot_pacffig, ax = plt.subplots(2, 1, figsize=(12, 8))plot_acf(differenced_data, lags=40, ax=ax[0])plot_pacf(differenced_data, lags=40, ax=ax[1])plt.show()
  • Wenn die ACF allmählich abfällt und die PACF nach einer bestimmten Verzögerung (lag) stark abfällt, dann könnte dies darauf hinweisen, dass der AR-Term (p) der Ordnung des ersten Verlusts (Lag) entspricht und der MA-Term (q) der Bezug zur ersten Differenzierung (d=1) und mögliche Spikes in den ACF/PACF Plots enthält.
  • In der Regel schlägt die Auswahl der Parameter durch einfache Beobachtung der ACF und PACF Plots vor. Beispiele:
    • p = Anzahl der signifikanten lags in der PACF
    • q = Anzahl der signifikanten lags in der ACF
  • 4. ARIMA-Modell Spezifikation:Nachdem die Werte für p, d und q identifiziert wurden, kannst Du das ARIMA-Modell spezifizieren und die Parameter schätzen.
from statsmodels.tsa.arima.model import ARIMAmodel = ARIMA(data, order=(p, d, q))model_fit = model.fit()print(model_fit.summary())
  • 5. Diagnose und Modellvalidierung:Zum Schluss ist es wichtig, die Residuen zu untersuchen, um sicherzustellen, dass sie weißes Rauschen sind. Dies kann durch das Plotten der ACF der Residuen und durch Durchführung von Tests wie dem Ljung-Box-Test erfolgen.
residuals = model_fit.residfig, ax = plt.subplots(2, 1, figsize=(12, 8))plot_acf(residuals, lags=40, ax=ax[0])plot_pacf(residuals, lags=40, ax=ax[1])plt.show()from statsmodels.stats.diagnostic import acorr_ljungboxljung_box_test = acorr_ljungbox(residuals, lags=[10], return_df=True)print(ljung_box_test)
  • Durch die Schritte der Identifikation, Schätzung und Validierung hast Du ein robustes ARIMA-Modell, das für die Vorhersage des zukünftigen Verkehrsaufkommens in Nürnberg verwendet werden kann.

b)

Schätze die Parameter des identifizierten ARIMA-Modells und führe eine Diagnoseanalyse durch. Überprüfe die Modellfitness anhand der Residualanalyse und den Informationskriterien AIC und BIC. Interpretiere die Ergebnisse und beurteile, ob das Modell zur Vorhersage des Verkehrsaufkommens geeignet ist.

Lösung:

  • 1. Einführung:In dieser Aufgabe wirst Du die Parameter des vorher identifizierten ARIMA-Modells schätzen und eine Diagnoseanalyse durchführen, um die Eignung des Modells zur Vorhersage des Verkehrsaufkommens zu beurteilen.
  • 2. Parameter Schätzung:Verwende das ARIMA-Modell mit den identifizierten Parametern (p, d, q), um die Modellparameter zu schätzen. Wir setzen hier fiktive Werte für p, d, und q ein.
import pandas as pdfrom statsmodels.tsa.arima.model import ARIMAdata = pd.read_csv('verkehrsdaten.csv', parse_dates=['Datum'], index_col='Datum')p, d, q = 2, 1, 2  # Beispielwerte für die ARIMA-Ordnungmodel = ARIMA(data, order=(p, d, q))model_fit = model.fit()print(model_fit.summary())
  • 3. Modellzusammenfassung:Nach der Anpassung des Modells zeigt die Zusammenfassung wesentliche Informationen, die wir interpretieren müssen:
# Ausgabe der Modellzusammenfassung (Beispiel):# ARIMA(2,1,2) Model Results:# ================================================================================# Dep. Variable:          D.Verkehrsaufkommen  No. Observations:                   59# Model:                 ARIMA(2, 1, 2)   Log Likelihood                 -123.456# Method:                       CSS-ML   S.D. of innovations              678.123# Date:                Sun, 07 Nov 2023   AIC                            260.912# Time:                        12:34:56   BIC                            270.789# Sample:                    01-01-2018   HQIC                           264.321#                          - 12-01-2022# ================================================================================#                  coef    std err          z      P>|z|      [0.025      0.975]# -------------------------------------------------------------------------------# ar.L1.D       0.1234      0.345      0.358      0.721      -0.678       0.898# ar.L2.D       -0.5678     0.456     -1.245      0.213      -1.461       0.345# ma.L1.D       0.2345      0.567      0.413      0.679      -0.876       1.123# ma.L2.D       -0.3456     0.678     -0.510      0.610      -1.678       0.987# sigma2         45678.9    5678.9      8.043      0.000    34567.8     56789.0# ================================================================================
  • Wichtige Kennzahlen in der Zusammenfassung:
    • Die AR- und MA-Koeffizienten (ar.L1.D, ar.L2.D, ma.L1.D, ma.L2.D) und deren p-Werte
    • Die Akaike-Informationskriterium (AIC) und Bayessche Informationskriterium (BIC) Werte, welche zur Modellvergleiche benutzt werden. Niedrigere Werte deuten auf ein besseres Modell hin.
  • 4. Diagnoseanalyse durchführen:
  • Um zu überprüfen, ob die Modellierung erfolgreich war, müssen die Residuals analysiert werden. Die Residuals sollten weißes Rauschen (keine Autokorrelation) sein.
import matplotlib.pyplot as pltfrom statsmodels.graphics.tsaplots import plot_acf, plot_pacfresiduals = model_fit.residfig, ax = plt.subplots(2, 1, figsize=(12, 8))plot_acf(residuals, lags=40, ax=ax[0])plot_pacf(residuals, lags=40, ax=ax[1])plt.show()
  • Führe den Ljung-Box-Test durch, um die Autokorrelation der Residuals zu überprüfen:
from statsmodels.stats.diagnostic import acorr_ljungboxljung_box_test = acorr_ljungbox(residuals, lags=[10], return_df=True)print(ljung_box_test)
  • 5. Modellfitness bewerten:
  • Überprüfe die ACF- und PACF-Plots, um sicherzustellen, dass keine signifikante Autokorrelation in den Residuals vorhanden ist.
  • Stelle sicher, dass die p-Werte des Ljung-Box-Tests über dem Signifikanzniveau (typisch 0.05) liegen, um die Nullhypothese der weißen Residuals nicht zu verwerfen.
  • Vergleiche die Informationskriterien (AIC und BIC) mit anderen Modellspezifikationen, um das beste Modell auszuwählen.
  • Wenn die Residuen die Tests bestehen und die Informationskriterien akzeptabel sind, kann das Modell als geeignet zur Vorhersage des Verkehrsaufkommens betrachtet werden.
  • Andernfalls müssen möglicherweise die Modellparameter (p, d, q) angepasst oder alternative Modelle in Betracht gezogen werden.
  • 6. Fazit:Durch die eingehende Analyse und Prüfung der Modellparameter, Informationskriterien und Residuen, kannst Du die Eignung des ARIMA-Modells zur Vorhersage des Verkehrsaufkommens in Nürnberg beurteilen und gegebenenfalls Anpassungen vornehmen.

Aufgabe 4)

Betrachte die folgende Zeitreihe von monatlichen Verkaufszahlen eines Unternehmens (in Tausend Einheiten) über einen Zeitraum von fünf Jahren:

  • Januar Jahr 1: 50
  • Februar Jahr 1: 52
  • März Jahr 1: 55
  • April Jahr 1: 53
  • Mai Jahr 1: 57
  • ...
  • Dezember Jahr 5: 105
Du möchtest überprüfen, ob diese Zeitreihe stationär ist, und falls nicht, wie Du sie in eine stationäre Zeitreihe umwandeln kannst.

b)

Angenommen, der Augmented Dickey-Fuller Test (ADF) ergibt, dass die Zeitreihe nicht stationär ist. Erkläre, welche Schritte Du unternehmen würdest, um die Zeitreihe stationär zu machen. Zeige anhand eines Beispiels (z.B. Differenzierung), wie dies durchgeführt werden kann.

Lösung:

Schritte zur Umwandlung einer nicht-stationären Zeitreihe in eine stationäre Zeitreihe:Angenommen, der Augmented Dickey-Fuller Test (ADF) hat ergeben, dass die Zeitreihe nicht stationär ist. Hier sind die Schritte, die Du unternehmen kannst, um die Zeitreihe stationär zu machen:

  • Differenzierung: Eine der häufigsten Methoden zur Herstellung einer stationären Zeitreihe ist die Differenzierung. Dabei wird die Differenz zwischen aufeinanderfolgenden Beobachtungen berechnet. Dies kann mehrmals durchgeführt werden, bis die Zeitreihe stationär wird. Hier ist ein Beispiel:
  • Erste Differenzierung
    Originaldaten: [50, 52, 55, 53, 57, ... , 105]
    1. Differenzierung: [52 - 50, 55 - 52, 53 - 55, 57 - 53, ...]
    1. Differenzierte Daten: [2, 3, -2, 4, ...]
  • Zweite Differenzierung (falls nötig):Falls die erste Differenzierung nicht ausreicht, kann eine weitere Differenzierung durchgeführt werden:
    2. Differenzierung: [3 - 2, -2 - 3, 4 - (-2), ...]
    2. Differenzierte Daten: [1, -5, 6, ...]
  • Transformation: Um die Varianz zu stabilisieren, können logarithmische oder Quadratwurzel-Transformationen angewendet werden.
    Log-Transformation: log([50, 52, 55, 53, 57, ... , 105])
    Log-transformierte Daten: [log(50), log(52), log(55), log(53), log(57), ..., log(105)]
  • Detrendierung: Wenn die Zeitreihe einen klaren Trend zeigt, kann dieser durch Subtraktion eines linearen oder nichtlinearen Trends entfernt werden. Hier ist ein Beispiel einer linearen Detrendierung:
    Trend: Y_t = a + bt (mit a und b als Koeffizienten)
    Detrended: X_t' = X_t - (a + bt)
  • Saisonbereinigung: Wenn saisonale Muster vorhanden sind, können diese durch saisonale Differenzierung oder durch Modellierung und anschließende Entfernung der saisonalen Effekte beseitigt werden:
    Saisonale Differenzierung: [X_t - X_{t-s}], wobei s der Saisonperiodizität entspricht
Durch die Anwendung dieser Techniken kannst Du die Zeitreihe so umwandeln, dass sie stationär wird, was für viele zeitreihenanalytische Methoden erforderlich ist.

c)

Nach der Umwandlung der Zeitreihe in eine stationäre Zeitreihe möchtest Du ein ARIMA-Modell zur Vorhersage der zukünftigen Verkaufszahlen verwenden. Erkläre, was ARIMA-Modelle sind und beschreibe kurz die einzelnen Komponenten (Auto Regressive, Integrated, Moving Average). Wie würdest Du die besten Modellparameter auswählen?

Lösung:

ARIMA-Modelle erklären und Parameter auswählenNach der Umwandlung der Zeitreihe in eine stationäre Zeitreihe mittels Differenzierung oder anderer Techniken kannst Du ein ARIMA-Modell (AutoRegressive Integrated Moving Average) verwenden, um die zukünftigen Verkaufszahlen vorherzusagen. Ein ARIMA-Modell kombiniert drei Hauptkomponenten: AutoRegressive (AR), Integrated (I) und Moving Average (MA). Lassen sich uns jede Komponente näher erläutern:

  • AutoRegressive (AR): Diese Komponente besagt, dass der aktuelle Wert der Zeitreihe eine lineare Funktion der vorhergehenden Werte ist. Das AR-Teilmodell wird durch den Parameter p (Anzahl der Lagged Terms) definiert. Ein AR-Modell der Ordnung p wird als AR(p) bezeichnet.Beispiel für AR(1):
     X_t = c + φ1 * X_{t-1} + ε_t
  • Integrated (I): Diese Komponente gibt die Anzahl der Differenzen an, die notwendig sind, um eine Zeitreihe stationär zu machen. Der Parameter d (Ordnung der Differenzierung) bestimmt diese Komponente. Ein Modell mit d Differenzierungen wird als I(d) bezeichnet.Beispiel für eine Differenzierung (d = 1):
     X'_t = X_t - X_{t-1}
  • Moving Average (MA): Diese Komponente besagt, dass der aktuelle Wert der Zeitreihe eine lineare Funktion der vorhergehenden Fehler ist. Das MA-Teilmodell wird durch den Parameter q (Anzahl der Lagged Fehler) definiert. Ein MA-Modell der Ordnung q wird als MA(q) bezeichnet.Beispiel für MA(1):
     X_t = c + ε_t + θ1 * ε_{t-1}
Modellparameter auswählen:Die optimale Auswahl der Modellparameter (p, d, q) kann auf verschiedene Weisen erfolgen:
  • Autocorrelationsfunktion (ACF) und partielle Autokorrelationsfunktion (PACF): Durch das Plotten der ACF und PACF der stationären Zeitreihe kannst Du mögliche Werte für p und q abschätzen. Ein AR(p)-Prozess zeigt normalerweise eine langsame Abnahme in der ACF und einen abrupten Abfall (Cut-off) in der PACF nach Lag p. Ein MA(q)-Prozess zeigt hingegen einen Cut-off in der ACF und eine langsame Abnahme in der PACF nach Lag q.
  • Informationskriterien: Kriterium-basierte Methoden wie das Akaike-Informationskriterium (AIC) oder das Bayes-Informationskriterium (BIC) können verwendet werden, um das Modell mit den besten Parametern zu finden, indem eine Vielzahl von Modellen getestet wird und das Modell mit dem niedrigsten AIC- oder BIC-Wert ausgewählt wird.
  • Grid Search: Eine systematische Suche nach dem besten Satz von Parametern durch Auswertung aller möglichen Kombinationen von p, d und q in einem bestimmten Bereich. Obwohl rechnerintensiv, ist dies eine effektive Methode zur Bestimmung optimaler Parameter.
Beispiel für ARIMA-Modellierung:Angenommen, nach der Stationarisierung erweist sich eine Differenzierung (d = 1) als notwendig, und ACF und PACF deuten darauf hin, dass p = 1 und q = 1 geeignete Werte sind. In diesem Fall könntest Du ein ARIMA(1, 1, 1)-Modell verwenden.
  • Modellgleichungen:
    Erste Differenzierung: X'_t = X_t - X_{t-1}
    ARIMA(1, 1, 1): X'_t = c + φ1 * X'_{t-1} + θ1 * ε_{t-1} + ε_t
Mit diesen ARIMA-Parametern (p = 1, d = 1, q = 1) kannst Du die zukünftigen Verkaufszahlen der Zeitreihe effektiv vorhersagen.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden