Selected Topics of Deep Learning for Audio, Speech, and Music Processing - Cheatsheet
Optimierungsmethoden für neuronale Netze
Definition:
Methoden zur Anpassung der Gewichte und Parameter neuronaler Netze zur Minimierung der Fehlerfunktion.
Details:
- Gradientenabstieg: Iterative Anpassung der Gewichte basierend auf dem Gradienten der Fehlerfunktion
- Optimierer: Adam, RMSProp, Adagrad (Verbesserungen und Erweiterungen des Gradientenabstiegs)
- Loss-Funktion: MSE, Cross-Entropy (Bestimmung des Fehlers)
- Lernrate: Schlüsselparameter zur Steuerung der Geschwindigkeit des Lernprozesses
- Batch-Größe: Anzahl der Trainingsbeispiele, die in einem Schritt verarbeitet werden
- Regularisierung: Methoden wie L2, Dropout zur Vermeidung von Overfitting
Spectrogramme und ihre Rolle in der Audiobearbeitung
Definition:
Visuelle Darstellung von Frequenzen eines Audiosignals über Zeit. Verschiedene Farbtöne repräsentieren die Amplitude der Frequenzen.
Details:
- Erzeugung: Fourier-Transformation wird auf zeitlich segmentierte Teile des Signals angewendet.
- Arten: Kurzzeit-Fourier-Transformation (STFT), Mel-Spectrogramm.
- Nutzen: Erkennung von Mustern, Frequenzanalyse, Rauschunterdrückung, Merkmalsextraktion.
- Deep Learning Nutzung: Eingabe für neuronale Netze bei Aufgaben wie Spracherkennung, Musikklassifikation.
Recurrent Neural Networks (RNN) und Long Short-Term Memory (LSTM)
Definition:
RNNs und LSTMs sind spezielle neuronale Netzwerkkonzepte, die sich besonders für die Verarbeitung sequenzieller Daten eignen.
Details:
- RNN: Verwendet Rückkopplungen, um Informationen in Sequenzen zu verarbeiten.
- Problem: Vanishing Gradient.
- LSTM: Spezialfall von RNNs mit vergessenen und erinnernden Zellzuständen.
- Formeln:
Emotionserkennung in Musik
Definition:
Analyse und Klassifikation emotionaler Inhalte in musikalischen Stücken mithilfe von Deep-Learning-Algorithmen.
Details:
- Verwendung neuronaler Netze wie CNNs oder RNNs zur Merkmalsextraktion und Klassifikation.
- Oft genutzte Merkmale: Melodie, Harmonie, Rhythmus, Tempo, Timbre.
- Beispiele für Datensätze: DEAM (Database for Emotion Analysis in Music), EMO-DB.
- Leistungsbewertung: Precision, Recall, F1-Score, ROC-Kurve.
Transformer-Modelle und ihre Anwendung in NLP
Definition:
Transformer-Modelle sind eine Art von neuronalen Netzwerken, die auf der Selbstaufmerksamkeit (Self-Attention) basieren und effektiv in NLP-Aufgaben eingesetzt werden.
Details:
- Architektur: Encoder-Decoder-Struktur
- Anwendungen: Maschinelles Übersetzen, Textklassifikation, Sprachgenerierung, Fragebeantwortung
- Hauptkomponenten: Multi-Head Attention, Position-Wise Feed-Forward Networks
- Vorteile: Parallelisierung, längere Kontextverarbeitung
- Bekannte Modelle: BERT, GPT, T5
- Wichtige Begriffe: Selbstaufmerksamkeit (Self-Attention), Positionskodierung
Feature Extraction für Audiodaten
Definition:
Feature-Extraktion für Audiodaten: Prozess, der relevante Informationen aus dem Rohsignal extrahiert, um die Datenanalyse und Modellierung zu erleichtern.
Details:
- Ziel: Reduzierung der Datenmenge, Verbesserung der Repräsentation
- Techniken: Fourier-Transformation, Mel-Frequenz Cepstral Koeffizienten (MFCCs), Chroma-Features
- Fourier-Transformation: Umwandlung von Zeit- in Frequenzdomäne
- MFCCs: Modellierung des menschlichen Gehörs
- Chroma-Features: Harmonische Inhalte und Tonalität
- Anwendung: Audio-Klassifikation, Spracherkennung, Musikverarbeitung
Generative Modelle für Musikkomposition
Definition:
Generative Modelle zur automatischen Erstellung von Musikstücken unter Einsatz neuronaler Netze und anderer ML-Techniken.
Details:
- RNNs, VAEs, GANs: Häufig verwendete Architekturen.
- Ziel: Lernen musikalischer Strukturen und Stilistiken.
- Wichtiger Ansatz: Sequence-to-Sequence Modellierung.
- Musikalische Kreativität durch probabilistische Modellierung.
- Trainingsdaten: Lead Sheets, MIDI-Datenbanken.
- Evaluation: Musikalische Kohärenz, Stiltreue, Originalität.
Regulierungsmethoden zur Vermeidung von Overfitting
Definition:
Verfahren zur Reduktion der Fehlanpassung eines Modells an das Trainingsdatenset.
Details:
- Cross-Validation: Modell auf verschiedenen Datenabschnitten trainieren und evaluieren.
- Regularisierung: Hinzufügen von Straftermen (\textit{L1-, L2-Regularisierung}).
- Dropout: Zufälliges Deaktivieren von Neuronen während des Trainings.
- Early Stopping: Training stoppen, wenn die Leistung auf Validierungsdaten sich nicht mehr verbessert.
- Datenaugmentation: Künstliche Erweiterung des Trainingsdatensatzes durch Transformationen.