Advanced Deep Learning - Cheatsheet
Grundlagen der Faltung und Faltungsmathematik
Definition:
Grundprinzipien der Faltung in neuronalen Netzen zur Mustererkennung und Reduzierung der Dimensionsgröße
Details:
- Faltungsmathematik: Anwendung des Faltungsintegrals \(f*g(t) = \int_{-\infty}^{\infty} f(\tau) g(t-\tau) d\tau\)
- Diskrete Faltung: \( (f * g)[n] = \sum_{m=-\infty}^{\infty} f[m] g[n-m] \)
- Eigenschaften: Linearität, Kommutativität, Assoziativität
- Convolutional Neural Networks (CNNs): Nutzen Faltungsoperationen zur Extraktion von Merkmalen aus Eingabedaten
- Filter/Kerne: Kleine Matrizen zur Durchführung der Faltungsoperation
- Stride und Padding: Kontrollieren Verschiebung und Ränder der Faltungsausgabe
- Pooling: Reduziert Dimensionsgröße der Feature Maps (z.B. max pooling, average pooling)
LSTM und GRU Architekturen
Definition:
LSTM und GRU sind spezielle Arten von rekurrenten neuronalen Netzen (RNNs), die verwendet werden, um Langzeitabhängigkeiten in sequentiellen Daten zu erfassen.
Details:
- LSTM (Long Short-Term Memory) verfügt über eine Speicherzelle, die Informationen über längere Zeiträume behält.
- Hauptgleichungen: \[ i_t = \text{sigmoid}(W_i x_t + U_i h_{t-1} + b_i) \] \[ f_t = \text{sigmoid}(W_f x_t + U_f h_{t-1} + b_f) \] \[ o_t = \text{sigmoid}(W_o x_t + U_o h_{t-1} + b_o) \] \[ c_t = f_t \times c_{t-1} + i_t \times \text{tanh}(W_c x_t + U_c h_{t-1} + b_c) \] \[ h_t = o_t \times \text{tanh}(c_t) \]
- GRU (Gated Recurrent Unit) kombiniert die Zustände und Speichermechanismen von LSTM in einem einfacheren Modell.
- Hauptgleichungen: \[ z_t = \text{sigmoid}(W_z x_t + U_z h_{t-1}) \] \[ r_t = \text{sigmoid}(W_r x_t + U_r h_{t-1}) \] \[ \tilde{h}_t = \text{tanh}(W_h x_t + U_h (r_t \times h_{t-1})) \] \[ h_t = (1 - z_t) \times h_{t-1} + z_t \times \tilde{h}_t \]
- Beide Modelle helfen, das Vanishing-Gradient-Problem zu verringern.
Minimax-Spiel und Trainingsverfahren von GANs
Definition:
Minimax-Spiel beschreibt die Zielsetzung eines GANs, bei dem Generator und Diskriminator gegeneinander konkurrieren. Trainingsverfahren umfasst spezifische Schritte und Methoden zur Optimierung der GANs.
Details:
- GANs bestehen aus einem Generator (G) und einem Diskriminator (D).
- G: erzeugt Daten, um D zu täuschen.
- D: unterscheidet zwischen echten und generierten Daten.
- Minimax-Ziel: \min_G \max_D V(D, G)
- Loss-Funktionen:
- Anpassungen für Training: z.B. Batch-Normalisierung, Wasserstein-GANs.
- Optimierung: Abwechselnd G und D trainieren.
Q-Learning und Deep Q-Networks
Definition:
Q-Learning: modelfreies RL-Verfahren zur Bestimmung der optimalen Aktionsauswahlpolitik mittels Q-Funktion. Deep Q-Networks (DQN): Erweiterung von Q-Learning unter Verwendung von neuronalen Netzen zur Approximation der Q-Funktion.
Details:
- Q-Learning update Gleichung:
- Bellman-Gleichung:
- Deep Q-Networks: Kombinieren Q-Learning mit Convolutional Neural Networks (CNNs) zur Approximation von Werte-Funktionen in hochdimensionalen Zustandsräumen
- Replay-Memory zur Stabilisierung des Lernprozesses
- Target-Netzwerk zur Reduktion der Korrelationen während des Trainings
Backpropagation Through Time (BPTT)
Definition:
Backpropagation durch die Zeit (BPTT) ist eine Erweiterung des standardmäßigen Backpropagationsalgorithmus zur Anpassung von Gewichten in rekurrenten neuronalen Netzen (RNNs). Es wird verwendet, um Fehlergradienten über zeitliche Abhängigkeiten hinweg zu berechnen.
Details:
- Anwendung auf RNNs, um Abhängigkeiten über Zeit zu lernen.
- Ähnlich zum normalen Backpropagation aber für zeitlich entfaltete Netzwerke.
- Verlustfunktionen und Fehlergradienten werden über mehrere Zeitschritte berechnet.
- Problem der verschwindenden/explodierenden Gradienten bei langen Sequenzen.
- Verkettungsregel zur Berechnung von Gradienten in jedem Zeitschritt:
- \[\delta_t = \frac{\partial L}{\partial h_t} + \delta_{t+1} \frac{\partial h_{t+1}}{\partial h_t}\]
Transfer Learning und Feinabstimmung von CNNs
Definition:
Verwendung vortrainierter Modelle auf neuen, ähnlichen Aufgaben, um Trainingszeit zu reduzieren und Leistung zu verbessern.
Details:
- Transfer Learning: Verwendung eines vortrainierten Modells, Anpassung an eine neue Aufgabe durch Feinabstimmung.
- Feinabstimmung (Fine-Tuning): Aktualisierung der Gewichte eines vortrainierten Modells, um es besser an eine neue Aufgabe anzupassen.
- Typischer Ablauf: Einfrieren der ersten Schichten, Anpassung der letzten Schichten.
- Verwendung z.B. für spezifische Datensätze, wo begrenzte Daten verfügbar sind.
- Formel:
Erklärbarkeit und Interpretierbarkeit von Modellen
Definition:
Erklärbarkeit (=Rückschlüsse auf Funktionsweise des Modells) und Interpretierbarkeit (=Nachvollziehbarkeit der Entscheidungen) von Modellen
Details:
- Erklärbarkeit: Identifikation von Einflussfaktoren, Verwendung von Techniken wie LIME und SHAP
- Interpretierbarkeit: Verständlichkeit der Entscheidungsfindung, oft bei einfacheren Modellen wie Entscheidungsbäumen leichter, schwerer bei komplexen Modellen wie tiefen neuronalen Netzen
- Wichtigkeit: Vertrauen, Debugging, Regelkonformität
- Trade-off: Erklärbarkeit vs. Modellkomplexität
- LIME (Local Interpretable Model-Agnostic Explanations): Erklärungen auf lokaler Ebene
- SHAP (SHapley Additive exPlanations): Zuweisung von Beiträgen einzelner Features zu Modellausgaben