Speech and Language Processing - Cheatsheet
Akustische Modellierung in der Spracherkennung
Definition:
Akustische Modellierung beschreibt die Zuordnung von akustischen Signalen zu sprachlichen Einheiten.
Details:
- Verwendung von HMMs (Hidden Markov Models)
- Parameter-Schätzung mit EM-Algorithmus (Erwartungs-Maximierungs-Algorithmus)
- Merkmalsextraktion oft durch MFCCs (Mel-Frequency Cepstral Coefficients)
- Neuronale Netze und DNNs (Deep Neural Networks) zunehmend genutzt
- Ziel: Maximierung der Wahrscheinlichkeit des akustischen Modells
- P(Sprache | Akustik) = P(Akustik | Sprache) \times P(Sprache)
Konkatierende Sprachsynthese
Definition:
Technik zur Sprachsynthese durch Aneinanderfügen vorgespeicherter Sprachsegmente.
Details:
- Segmente: Phoneme, Diphone, Silben, Wörter
- Hohe Sprachqualität möglich
- Hoher Speicherbedarf
- Komplexe Segmentierung und Speicherung
- Übergangsprobleme an Segmentgrenzen
- Anwendungen: Text-to-Speech (TTS)
Grammatikalische und semantische Analyse im NLP
Definition:
Grammatikalische und semantische Analyse bezieht sich auf die Untersuchung der sprachlichen Struktur und Bedeutung von Texten im Natural Language Processing (NLP).
Details:
- Grammatikalische Analyse: Struktur und Syntax eines Satzes durch Parsing ermitteln.
- Semantische Analyse: Bedeutung und Kontext eines Satzes durch Wortbedeutung (Semantik) und Konzepte extrahieren.
- Verwendete Methoden: Konstituentenparsing, Dependenzparsing, Named Entity Recognition (NER), Semantic Role Labeling (SRL).
- Wichtigkeit: Essentiell für maschinelle Übersetzung, Spracherkennung, Textzusammenfassung, und mehr.
Recurrent Neural Networks (RNN) und Long Short Term Memory (LSTM)
Definition:
RNNs und LSTMs werden für sequenzielle Daten verwendet, insbesondere in Sprachverarbeitung und Zeitreihenanalyse.
Details:
- RNN: Neuronales Netzwerk, das vorherige Berechnungen speichert. Problem: Vanishing Gradient.
- LSTM: Spezielle Art von RNN. Verwendet Speicherzellen und Gating-Mechanismen zur Überwindung des Vanishing Gradient Problems.
- RNN Formel: \( h_t = \tanh(W_{xh} x_t + W_{hh} h_{t-1}) \)
- LSTM Zellzustand: \( C_t = f_t * C_{t-1} + i_t * \tilde{C}_t \)
- LSTM Ausgabe: \( h_t = o_t * \tanh(C_t) \)
- Gemeinsame Anwendung: Spracherkennung, Textvorhersage, Übersetzungen.
Speech Synthesis Markup Language (SSML)
Definition:
Markup-Sprache zur Steuerung von Text-to-Speech-Systemen.
Details:
- Erlaubt präzise Steuerung der Sprachsynthese
- Unterstützt Anpassung von Prosodie, Betonung und Lautstärke
- Syntax: XML-basiert
- Beispiel: Hallo Welt
- Wichtige Tags: , , ,
Named Entity Recognition (NER)
Definition:
Named Entity Recognition (NER) extrahiert Entitäten (wie Personen, Organisationen, Orte) aus Textdaten.
Details:
- Ziel: Identifikation und Klassifizierung von Entitäten in Texten
- Kategorien: Personen (\textit{PER}), Organisationen (\textit{ORG}), Orte (\textit{LOC}), Datum (\textit{DATE}) etc.
- Methoden: Regelbasierte Ansätze, Machine Learning, Deep Learning (z.B. LSTM, BERT)
- Anwendung: Informationsextraktion, Text Mining, Fragebeantwortung
Dynamic Time Warping und Hidden Markov Modelle (HMM)
Definition:
Algorithmus zur Messung der Ähnlichkeit zwischen zwei temporal unterschiedenen Sequenzen.
Details:
- DTW wird verwendet, um nicht-lineare Verzerrungen in Zeitreihen auszugleichen
- Berechnung der minimalen Distanz zwischen Sequenzen durch dynamische Programmierung
- DTW-Matrix: Kostentabelle, um optimale Pfade zu finden
- HMM: statistisches Modell, das eine Markov-Kette mit verborgenen Zuständen repräsentiert
- Verwendung in Sprach- und Mustererkennung
- HMM besteht aus Zuständen, Übergangswahrscheinlichkeiten, Emissionswahrscheinlichkeiten und Anfangswahrscheinlichkeiten
- Forward-Algorithmus: Berechnung der Wahrscheinlichkeit einer Beobachtungssequenz
- Viterbi-Algorithmus: Finden des wahrscheinlichsten Zustandsweges
- Baum-Welch-Algorithmus: Parameteroptimierung für HMM
Transfer Learning in der Sprachverarbeitung
Definition:
Transfer Learning ist eine Methode, bei der ein vorab trainiertes Modell auf eine neue, aber ähnliche Aufgabe angepasst wird, um Trainingszeit und Datenanforderungen zu reduzieren.
Details:
- Wird verwendet, um Modelle effektiver auf spezifische Aufgaben zu trainieren, ohne von Grund auf neu zu starten.
- Oft werden große, vortrainierte Modelle wie BERT, GPT oder T5 verwendet.
- Feinabstimmung (\textit{Fine-Tuning}): Anpassung des vortrainierten Modells an die spezifischen Anforderungen der Zielaufgabe.
- Wichtig für Aufgaben wie maschinelle Übersetzung, Textklassifikation, und Named Entity Recognition (NER).
- Sparsamkeit: Weniger Daten und Rechenleistung nötig im Vergleich zum Training von Grund auf.