Maschinelles Lernen für Zeitreihen - Cheatsheet
Überwachtes und unüberwachtes Lernen
Definition:
Anwendungen maschinellen Lernens in der Zeitreihenanalyse mit existierenden (überwachten) oder neuen (unüberwachten) Labeln, um Muster und Vorhersagen zu generieren
Details:
- Überwachtes Lernen: Nutzung von gelabelten Daten zum Training eines Modells
- Unüberwachtes Lernen: Erkennung von Mustern in ungelabelten Daten
- Ziele: Klassifizierung, Regression (überwachtes Lernen), Clusterbildung, Dimensionsreduktion (unüberwachtes Lernen)
Zeitreihendaten: Stationarität und Transformationen
Definition:
Stationarität beschreibt die Eigenschaft einer Zeitreihe, deren statistische Eigenschaften sich über die Zeit nicht ändern.
Details:
- Stationär: Mittelwert, Varianz und Autokorrelation sind zeitunabhängig
- Test: Augmented-Dickey-Fuller (ADF)
- Transformationen zur Stationarität: Differenzierung, Logarithmierung, Saisonalitäten entfernen
- ARIMA-Modell: Autoregressive Integrated Moving Average, nutzt Differenzierung
- Formel für Differenzierung: \[Y_t - Y_{t-1}\]
ARIMA-Modelle: Parameteridentifikation und Anpassung
Definition:
ARIMA (AutoRegressive Integrated Moving Average) Modelle zur Analyse und Vorhersage von Zeitreihen-Daten verwenden. Parameteridentifikation und Anpassung essentiell für Modellgenauigkeit.
Details:
- AR-Teil (AutoRegressiv): Modelliert die Beziehung der Zeitreihe zu ihren eigenen Verzögerungen. Parameter: p (Ordnung der AR).
- I-Teil (Integriert): Bezieht sich auf die Differenzierung der Daten, um die Nichtstationarität zu entfernen. Parameter: d (Anzahl der Differenzierungen).
- MA-Teil (Moving Average): Modelliert die Beziehung der Zeitreihe zu den Fehlern von vorangegangenen Zeitpunkten. Parameter: q (Ordnung der MA).
- Parameteridentifikation: Bestimme p, d, q durch ACF/PACF-Plot, AIC/BIC.
- Anpassung: Schätzung der Parameter mit Maximum-Likelihood Methode.
- Modelldiagnostik: Überprüfe Modell mittels Residualanalyse (z.B. Ljung-Box-Test).
Autokorrelationsfunktion (ACF) und Partial-Autokorrelationsfunktion (PACF)
Definition:
Autokorrelationsfunktion (ACF): Misst die Korrelation zwischen einer Zeitreihe und verzögerten Versionen von sich selbst. Partial-Autokorrelationsfunktion (PACF): Misst die Korrelation zwischen einer Zeitreihe und ihren Verzögerungen unter Ausschluss der Einflüsse der dazwischenliegenden Verzögerungen.
Details:
- ACF:
- Definiert als: \[\rho_k = \frac{\sum_{t=k+1}^{n} (Y_t - \bar{Y})(Y_{t-k} - \bar{Y})}{\sum_{t=1}^{n} (Y_t - \bar{Y})^2}\] wobei \(Y\) die Zeitreihe und \(k\) der Lag ist.
- Nützlich zur Identifikation von signifikanten Autokorrelationen über verschiedene Verzögerungen (Lags).
- PACF:
- Definiert durch: \[\rho_{k,k} = Corr(Y_t, Y_{t-k} | Y_{t-1}, Y_{t-2}, \ldots, Y_{t-k+1})\]
- Hilfreich zur Feststellung der tatsächlichen Verzögerung, bis zu welcher eine Serie Autokorrelationen aufweist.
- Verwendung:
- Beide Funktionen sind entscheidend für Modellidentifikation in ARIMA-Modellen und anderen Zeitreihenmodellen.
RNNs und LSTM für Zeitreihen
Definition:
RNNs (Recurrent Neural Networks) und LSTMs (Long Short-Term Memory) sind neuronale Netzwerke, die speziell für die Verarbeitung von Sequenzdaten, wie Zeitreihen, entwickelt wurden.
Details:
- RNNs: Nutzen Rückschleifen, um Informationen über frühere Eingaben zu speichern.
- RNNs Schwierigkeiten: Vanishing- und Exploding-Gradient-Probleme.
- LSTMs: Spezielle Art von RNNs, die das Vanishing-Gradient-Problem durch Zellzustand und Gating-Mechanismen lösen.
- LSTM-Zellen: Bestehen aus einem Eingabegate, einem Vergessensgate und einem Ausgabegate.
- Formeln:
- Zellzustand-Update: \(\tilde{C}_t = tanh(W_C x_t + U_C h_{t-1} + b_C)\)
- Vergessensgate: \(f_t = \theta(W_f x_t + U_f h_{t-1} + b_f)\)
- Ausgabegate: \(o_t = \theta(W_o x_t + U_o h_{t-1} + b_o)\)
- Anwendungen: Zeitreihenanalyse, Vorhersagen, Sprachverarbeitung.
GARCH-Modelle für Volatilitätsanalyse
Definition:
GARCH-Modelle (Generalized Autoregressive Conditional Heteroskedasticity) modellieren wechselnde Volatilität in Finanzzeitreihen.
Details:
- Annahme: Volatilität ändert sich über die Zeit und hängt von vergangenen Fehlern (Residuals) und Volatilitäten ab.
- GARCH(1,1)-Modell: \[ \text{Var}(r_t) = \beta_0 + \beta_1 \text{Var}(r_{t-1}) + \theta_1 \text{Residual}^2_{t-1} \]
- Anwendungen: Risikomanagement, Optionsbewertung, Value-at-Risk-Berechnungen, etc.
- ERfordernisse: Stationarität der Zeitreihe, keine Autokorrelation der Residuals.
CNNs zur Mustererkennung in Zeitreihen
Definition:
CNNs werden eingesetzt, um Muster in Zeitreihen zu erkennen, indem sie lokale Abhängigkeiten und hierarchische Merkmale durch Faltung und Pooling lernen.
Details:
- Faltungsschichten extrahieren Merkmale durch Filter
- Pooling reduziert die Dimensionalität und erhöht die Robustheit
- Verwendung von 1D-CNNs für Zeitreihen
- Typischerweise mehrere Faltungs- und Pooling-Schichten
- Aktivierungsfunktionen wie ReLU werden zwischen Schichten eingesetzt
- Optimierung durch Backpropagation
- Loss-Funktion z.B. Mean Squared Error (MSE)
- Zur Vorverarbeitung: Normalisierung/Standardisierung der Daten
- Hyperparameter: Anzahl der Filter, Größe der Filter, Pooling-Größe, Learning Rate
Modellbewertung und -validierung
Definition:
Bewertung und Validierung von Modellen zur Sicherstellung der Leistungsfähigkeit und Generalisierbarkeit.
Details:
- Trainings- und Test-Datensatz teilen
- Kreuzvalidierung verwenden
- Fehlermetriken: MAE (\text{Mean Absolute Error}), MSE (\text{Mean Squared Error}), RMSE (\text{Root Mean Squared Error}), MAPE (\text{Mean Absolute Percentage Error})
- Overfitting und Underfitting vermeiden
- Hyperparameter-Tuning durchführen
- Nur auf Test-Daten evaluieren, wenn Modell fertig ist