Lerninhalte finden
Features
Entdecke
© StudySmarter 2024, all rights reserved.
Betrachte die einfache lineare Regression, die verwendet wird, um das Verhältnis zwischen der abhängigen Variable \( Y \) und der unabhängigen Variable \( X \) zu analysieren. Die Funktion wird durch die Gleichung \( Y = \beta_0 + \beta_1 X + \epsilon \) dargestellt, wobei \( \beta_0 \) der Achsenabschnitt und \( \beta_1 \) der Steigungskoeffizient ist. Die Schätzung der Koeffizienten erfolgt mithilfe der Methode der kleinsten Quadrate (OLS).
(a) Angenommen, Du hast Daten von zehn Beobachtungen sowohl für \( Y \) als auch für \( X \) gesammelt. Berechne die Koeffizienten \( \beta_0 \) und \( \beta_1 \) basierend auf den folgenden Daten:
Lösung:
Um die Koeffizienten \( \beta_0 \) und \( \beta_1 \) der einfachen linearen Regression zu berechnen, verwenden wir die Methode der kleinsten Quadrate (OLS). Die Formeln für die Koeffizienten lauten:
Nachdem wir die Summen der Beobachtungen kennen, können wir zunächst den Mittelwert von \( X \) und \( Y \) berechnen:
Jetzt können wir \( \beta_1 \) berechnen:
Als nächstes berechnen wir \( \beta_0 \):
Die geschätzten Koeffizienten sind also:
(b) Bestimme das Bestimmtheitsmaß \( R^2 \) für das obige Regressionsmodell, wenn die Totale Quadratsumme (TSS) 75 beträgt und die erklärte Quadratsumme (ESS) 60 beträgt. Zeige Deine Berechnungen im Detail.
Lösung:
Um das Bestimmtheitsmaß \( R^2 \) für das Regressionsmodell zu berechnen, verwenden wir die folgende Formel:
Hierbei stehen:
Gemäß den angegebenen Daten haben wir:
Wir können nun \( R^2 \) berechnen:
Das Bestimmtheitsmaß \( R^2 \) für das obige Regressionsmodell beträgt also 0,8 oder 80%. Dies bedeutet, dass 80% der Variation in der abhängigen Variable \( Y \) durch die unabhängige Variable \( X \) erklärt werden kann.
(c) Führe einen t-Test für den Steigungskoeffizienten \( \beta_1 \) durch, unter der Annahme, dass die Standardabweichung des geschätzten Koeffizienten \( \beta_1 \) 0,5 beträgt. Teste auf einem Signifikanzniveau von 5%, ob \( \beta_1 \) signifikant von Null verschieden ist.
Lösung:
Um einen t-Test für den Steigungskoeffizienten \( \beta_1 \) durchzuführen, verwenden wir die folgende Teststatistik:
Dabei ist:
Gegeben:
Jetzt berechnen wir die t-Statistik:
Um zu testen, ob \( \beta_1 \) signifikant von Null verschieden ist, vergleichen wir den berechneten t-Wert mit dem kritischen t-Wert aus der t-Distribution. Ein t-Test auf einem Signifikanzniveau von 5% (\( \alpha = 0.05 \)) und einem zweiseitigen Test erfordert:
Der berechnete t-Wert von 3 liegt außerhalb des Intervalls [-2.306, 2.306].
Da der berechnete t-Wert größer als der kritische t-Wert ist, lehnen wir die Nullhypothese ab.
Fazit: Der Steigungskoeffizient \( \beta_1 \) ist auf einem Signifikanzniveau von 5% signifikant von Null verschieden.
(d) Diskutiere die möglichen Probleme der einfachen linearen Regression. Was könnten mögliche Auswirkungen von Autokorrelation, Heteroskedastizität und Multikollinearität sein?
Lösung:
Bei der Anwendung der einfachen linearen Regression können verschiedene Probleme auftreten, die die Qualität der Schätzungen und die Gültigkeit der Modelle beeinflussen. Zu den häufigsten Problemen gehören Autokorrelation, Heteroskedastizität und Multikollinearität. Hier sind die möglichen Auswirkungen jedes dieser Probleme:
Diese Probleme können Maßnahmen zur Diagnose und Korrektur erfordern, wie zum Beispiel:
Angenommen, Du bist ein Datenanalyst bei einem großen Einzelhändler. Dein Ziel ist es, den Umsatz (Y) vorherzusagen, basierend auf mehreren unabhängigen Variablen: Werbeausgaben in TV (X1), Werbeausgaben in Radio (X2) und Werbeausgaben in Zeitungen (X3). Du verwendest das Modell der mehrfachen linearen Regression, um Deinen Schätzungen nachzugehen.
Lösung:
Um den Umsatz (Y) basierend auf den Werbeausgaben in TV (X1), Radio (X2) und Zeitungen (X3) vorherzusagen, verwendest Du ein multiples lineares Regressionsmodell. Das Modell lässt sich wie folgt formulieren:
Modell:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \boldsymbol{\text{ε}} \]
Lösung:
Die Methode der kleinsten Quadrate (Ordinary Least Squares, OLS) wird verwendet, um die Koeffizienten des multiplen linearen Regressionsmodells zu schätzen. Die Matrixdarstellung der OLS-Schätzerformel lautet:
\[ \hat{\beta} = (X'X)^{-1}X'Y \]
Matrixnotation und Schritte:
Die Vektoren und Matrizen in der Formel sind wie folgt definiert:
\[ X = \begin{pmatrix} 1 & X_{11} & X_{12} & X_{13} \ 1 & X_{21} & X_{22} & X_{23} \ \vdots & \vdots & \vdots & \vdots \ 1 & X_{n1} & X_{n2} & X_{n3} \end{pmatrix} \]
\[ \beta = \begin{pmatrix} \beta_0 \ \beta_1 \ \beta_2 \ \beta_3 \end{pmatrix} \]
Transponiere die Matrix \( X \) und multipliziere sie mit \( X \).
\[ X'X \]
Berechne die Inverse der resultierenden Matrix \( X'X \). Diese Inverse existiert nur, wenn \( X'X \) eine nicht-singuläre (invertierbare) Matrix ist.
Multipliziere die transponierte Matrix \( X' \) mit dem Vektor \( Y \).
Multipliziere die Inverse \( (X'X)^{-1} \) mit dem Produkt \( X'Y \) um die geschätzten Koeffizienten \( \hat{\beta} \) zu erhalten.
\[ \hat{\beta} = (X'X)^{-1}X'Y \]
Die geschätzten Koeffizienten \( \hat{\beta} \) minimieren die Summe der quadrierten Abweichungen zwischen den beobachteten und den vorhergesagten Werten der abhängigen Variable (Umsatz). Diese Methode ermöglicht es, die lineare Beziehung zwischen den unabhängigen (TV, Radio, Zeitungen) und der abhängigen Variable (Umsatz) zu schätzen.
Lösung:
Damit die Schätzung der Koeffizienten mit der Methode der kleinsten Quadrate (OLS) gültig und zuverlässig ist, müssen bestimmte Voraussetzungen erfüllt sein:
Es muss eine lineare Beziehung zwischen den unabhängigen Variablen (X1, X2, X3) und der abhängigen Variable (Y) existieren. Dies bedeutet, dass das Modell korrekt spezifiziert ist und keine relevanten Variablen fehlen.
Die Fehlerterme (\( \varepsilon \)) sollten unkorreliert sein. Dies bedeutet, dass die Fehlerterme unabhängig voneinander sind, was auch als keine Autokorrelation bekannt ist.
Die unabhängigen Variablen (X1, X2, X3) sollten nicht perfekt linear miteinander korrelieren. Perfekte Multikollinearität führt dazu, dass die Matrix \( X'X \) nicht invertierbar ist, was bedeutet, dass die OLS-Schätzer nicht berechnet werden können.
Prüfung: In der Praxis kann Multikollinearität durch den Variance Inflation Factor (VIF) geprüft werden. Ein VIF-Wert größer als 10 deutet auf ein Problem hin.
Die Varianz der Fehlerterme sollte konstant sein (Homoskedastizität). Dies bedeutet, dass die Streuung der Residuen gleichmäßig über alle Werte der unabhängigen Variablen verteilt ist.
Prüfung: Homoskedastizität kann durch das Plotten der Residuen gegen die vorhergesagten Werte geprüft werden. Wenn die Streuung der Residuen zufällig und gleichmäßig verteilt ist, liegt Homoskedastizität vor. Alternativ können formale Tests wie der Breusch-Pagan-Test verwendet werden.
Die Fehlerterme sollten normalverteilt sein, insbesondere für kleinere Stichproben. Dies ist wichtig für die statistische Inferenz (Hypothesentests und Konfidenzintervalle).
Prüfung: Normalverteilung der Residuen kann durch QQ-Plots geprüft werden oder durch Tests wie den Shapiro-Wilk-Test.
Die unabhängigen Variablen (X1, X2, X3) sollten exogen sein, das heißt, sie sollten nicht mit dem Fehlerterm korreliert sein. Wenn dies nicht der Fall ist, spricht man von Endogenität, was zu verzerrten Schätzern führt.
Bedeutung und praktische Prüfung:
Diese Voraussetzungen sind notwendig, um sicherzustellen, dass die OLS-Schätzer unverzerrt, konsistent und effizient sind. Werden diese Voraussetzungen nicht erfüllt, können alternative Methoden oder Anpassungen notwendig sein, um verlässliche Schätzungen zu erhalten.
Die Stadtverwaltung von Nürnberg möchte das monatliche Verkehrsaufkommen in der Innenstadt analysieren und vorhersagen. Dazu werden historische Daten von Januar 2018 bis Dezember 2022 verwendet. Du wirst gebeten, ein ARIMA-Modell zu entwickeln, um zukünftige Verkehrsmuster zu prognostizieren. Bitte beachte, dass für die Analyse die folgenden Schritte notwendig sind: 1) Identifikation der Modellspezifikationen, 2) Schätzung der Modellparameter, und 3) Diagnose und Modellvalidierung.
Identifiziere geeignete Werte für die Parameter p, d, und q des ARIMA-Modells auf Basis der gegebenen Datenreihen. Stelle sicher, dass Du die nicht-stationäre Komponente entfernst und erkläre Deinen Entscheidungsfindungsschritt.
Lösung:
import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('verkehrsdaten.csv', parse_dates=['Datum'], index_col='Datum')data.plot(figsize=(12, 6))plt.title('Monatliches Verkehrsaufkommen in Nürnberg (2018-2022)')plt.ylabel('Verkehrsaufkommen')plt.xlabel('Zeit')plt.show()
from statsmodels.tsa.stattools import adfullerresult = adfuller(data['Verkehrsaufkommen'])print('ADF Statistic:', result[0])print('p-value:', result[1])
differenced_data = data.diff().dropna()result = adfuller(differenced_data['Verkehrsaufkommen'])print('ADF Statistic:', result[0])print('p-value:', result[1])
from statsmodels.graphics.tsaplots import plot_acf, plot_pacffig, ax = plt.subplots(2, 1, figsize=(12, 8))plot_acf(differenced_data, lags=40, ax=ax[0])plot_pacf(differenced_data, lags=40, ax=ax[1])plt.show()
from statsmodels.tsa.arima.model import ARIMAmodel = ARIMA(data, order=(p, d, q))model_fit = model.fit()print(model_fit.summary())
residuals = model_fit.residfig, ax = plt.subplots(2, 1, figsize=(12, 8))plot_acf(residuals, lags=40, ax=ax[0])plot_pacf(residuals, lags=40, ax=ax[1])plt.show()from statsmodels.stats.diagnostic import acorr_ljungboxljung_box_test = acorr_ljungbox(residuals, lags=[10], return_df=True)print(ljung_box_test)
Schätze die Parameter des identifizierten ARIMA-Modells und führe eine Diagnoseanalyse durch. Überprüfe die Modellfitness anhand der Residualanalyse und den Informationskriterien AIC und BIC. Interpretiere die Ergebnisse und beurteile, ob das Modell zur Vorhersage des Verkehrsaufkommens geeignet ist.
Lösung:
import pandas as pdfrom statsmodels.tsa.arima.model import ARIMAdata = pd.read_csv('verkehrsdaten.csv', parse_dates=['Datum'], index_col='Datum')p, d, q = 2, 1, 2 # Beispielwerte für die ARIMA-Ordnungmodel = ARIMA(data, order=(p, d, q))model_fit = model.fit()print(model_fit.summary())
# Ausgabe der Modellzusammenfassung (Beispiel):# ARIMA(2,1,2) Model Results:# ================================================================================# Dep. Variable: D.Verkehrsaufkommen No. Observations: 59# Model: ARIMA(2, 1, 2) Log Likelihood -123.456# Method: CSS-ML S.D. of innovations 678.123# Date: Sun, 07 Nov 2023 AIC 260.912# Time: 12:34:56 BIC 270.789# Sample: 01-01-2018 HQIC 264.321# - 12-01-2022# ================================================================================# coef std err z P>|z| [0.025 0.975]# -------------------------------------------------------------------------------# ar.L1.D 0.1234 0.345 0.358 0.721 -0.678 0.898# ar.L2.D -0.5678 0.456 -1.245 0.213 -1.461 0.345# ma.L1.D 0.2345 0.567 0.413 0.679 -0.876 1.123# ma.L2.D -0.3456 0.678 -0.510 0.610 -1.678 0.987# sigma2 45678.9 5678.9 8.043 0.000 34567.8 56789.0# ================================================================================
import matplotlib.pyplot as pltfrom statsmodels.graphics.tsaplots import plot_acf, plot_pacfresiduals = model_fit.residfig, ax = plt.subplots(2, 1, figsize=(12, 8))plot_acf(residuals, lags=40, ax=ax[0])plot_pacf(residuals, lags=40, ax=ax[1])plt.show()
from statsmodels.stats.diagnostic import acorr_ljungboxljung_box_test = acorr_ljungbox(residuals, lags=[10], return_df=True)print(ljung_box_test)
Betrachte die folgende Zeitreihe von monatlichen Verkaufszahlen eines Unternehmens (in Tausend Einheiten) über einen Zeitraum von fünf Jahren:
Angenommen, der Augmented Dickey-Fuller Test (ADF) ergibt, dass die Zeitreihe nicht stationär ist. Erkläre, welche Schritte Du unternehmen würdest, um die Zeitreihe stationär zu machen. Zeige anhand eines Beispiels (z.B. Differenzierung), wie dies durchgeführt werden kann.
Lösung:
Schritte zur Umwandlung einer nicht-stationären Zeitreihe in eine stationäre Zeitreihe:Angenommen, der Augmented Dickey-Fuller Test (ADF) hat ergeben, dass die Zeitreihe nicht stationär ist. Hier sind die Schritte, die Du unternehmen kannst, um die Zeitreihe stationär zu machen:
Originaldaten: [50, 52, 55, 53, 57, ... , 105]
1. Differenzierung: [52 - 50, 55 - 52, 53 - 55, 57 - 53, ...]
1. Differenzierte Daten: [2, 3, -2, 4, ...]
2. Differenzierung: [3 - 2, -2 - 3, 4 - (-2), ...]
2. Differenzierte Daten: [1, -5, 6, ...]
Log-Transformation: log([50, 52, 55, 53, 57, ... , 105])
Log-transformierte Daten: [log(50), log(52), log(55), log(53), log(57), ..., log(105)]
Trend: Y_t = a + bt (mit a und b als Koeffizienten)
Detrended: X_t' = X_t - (a + bt)
Saisonale Differenzierung: [X_t - X_{t-s}], wobei s der Saisonperiodizität entspricht
Nach der Umwandlung der Zeitreihe in eine stationäre Zeitreihe möchtest Du ein ARIMA-Modell zur Vorhersage der zukünftigen Verkaufszahlen verwenden. Erkläre, was ARIMA-Modelle sind und beschreibe kurz die einzelnen Komponenten (Auto Regressive, Integrated, Moving Average). Wie würdest Du die besten Modellparameter auswählen?
Lösung:
ARIMA-Modelle erklären und Parameter auswählenNach der Umwandlung der Zeitreihe in eine stationäre Zeitreihe mittels Differenzierung oder anderer Techniken kannst Du ein ARIMA-Modell (AutoRegressive Integrated Moving Average) verwenden, um die zukünftigen Verkaufszahlen vorherzusagen. Ein ARIMA-Modell kombiniert drei Hauptkomponenten: AutoRegressive (AR), Integrated (I) und Moving Average (MA). Lassen sich uns jede Komponente näher erläutern:
X_t = c + φ1 * X_{t-1} + ε_t
X'_t = X_t - X_{t-1}
X_t = c + ε_t + θ1 * ε_{t-1}
Erste Differenzierung: X'_t = X_t - X_{t-1}
ARIMA(1, 1, 1): X'_t = c + φ1 * X'_{t-1} + θ1 * ε_{t-1} + ε_t
Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.
Kostenloses Konto erstellenDu hast bereits ein Konto? Anmelden