Speech and Language Processing - Cheatsheet.pdf

Speech and Language Processing - Cheatsheet
Speech and Language Processing - Cheatsheet Akustische Modellierung in der Spracherkennung Definition: Akustische Modellierung beschreibt die Zuordnung von akustischen Signalen zu sprachlichen Einheiten. Details: Verwendung von HMMs (Hidden Markov Models) Parameter-Schätzung mit EM-Algorithmus (Erwartungs-Maximierungs-Algorithmus) Merkmalsextraktion oft durch MFCCs (Mel-Frequency Cepstral Coeffici...

© StudySmarter 2024, all rights reserved.

Speech and Language Processing - Cheatsheet

Akustische Modellierung in der Spracherkennung

Definition:

Akustische Modellierung beschreibt die Zuordnung von akustischen Signalen zu sprachlichen Einheiten.

Details:

  • Verwendung von HMMs (Hidden Markov Models)
  • Parameter-Schätzung mit EM-Algorithmus (Erwartungs-Maximierungs-Algorithmus)
  • Merkmalsextraktion oft durch MFCCs (Mel-Frequency Cepstral Coefficients)
  • Neuronale Netze und DNNs (Deep Neural Networks) zunehmend genutzt
  • Ziel: Maximierung der Wahrscheinlichkeit des akustischen Modells
  • P(Sprache | Akustik) = P(Akustik | Sprache) \times P(Sprache)

Konkatierende Sprachsynthese

Definition:

Technik zur Sprachsynthese durch Aneinanderfügen vorgespeicherter Sprachsegmente.

Details:

  • Segmente: Phoneme, Diphone, Silben, Wörter
  • Hohe Sprachqualität möglich
  • Hoher Speicherbedarf
  • Komplexe Segmentierung und Speicherung
  • Übergangsprobleme an Segmentgrenzen
  • Anwendungen: Text-to-Speech (TTS)

Grammatikalische und semantische Analyse im NLP

Definition:

Grammatikalische und semantische Analyse bezieht sich auf die Untersuchung der sprachlichen Struktur und Bedeutung von Texten im Natural Language Processing (NLP).

Details:

  • Grammatikalische Analyse: Struktur und Syntax eines Satzes durch Parsing ermitteln.
  • Semantische Analyse: Bedeutung und Kontext eines Satzes durch Wortbedeutung (Semantik) und Konzepte extrahieren.
  • Verwendete Methoden: Konstituentenparsing, Dependenzparsing, Named Entity Recognition (NER), Semantic Role Labeling (SRL).
  • Wichtigkeit: Essentiell für maschinelle Übersetzung, Spracherkennung, Textzusammenfassung, und mehr.

Recurrent Neural Networks (RNN) und Long Short Term Memory (LSTM)

Definition:

RNNs und LSTMs werden für sequenzielle Daten verwendet, insbesondere in Sprachverarbeitung und Zeitreihenanalyse.

Details:

  • RNN: Neuronales Netzwerk, das vorherige Berechnungen speichert. Problem: Vanishing Gradient.
  • LSTM: Spezielle Art von RNN. Verwendet Speicherzellen und Gating-Mechanismen zur Überwindung des Vanishing Gradient Problems.
  • RNN Formel: \( h_t = \tanh(W_{xh} x_t + W_{hh} h_{t-1}) \)
  • LSTM Zellzustand: \( C_t = f_t * C_{t-1} + i_t * \tilde{C}_t \)
  • LSTM Ausgabe: \( h_t = o_t * \tanh(C_t) \)
  • Gemeinsame Anwendung: Spracherkennung, Textvorhersage, Übersetzungen.

Speech Synthesis Markup Language (SSML)

Definition:

Markup-Sprache zur Steuerung von Text-to-Speech-Systemen.

Details:

  • Erlaubt präzise Steuerung der Sprachsynthese
  • Unterstützt Anpassung von Prosodie, Betonung und Lautstärke
  • Syntax: XML-basiert
  • Beispiel: Hallo Welt
  • Wichtige Tags: , , ,

Named Entity Recognition (NER)

Definition:

Named Entity Recognition (NER) extrahiert Entitäten (wie Personen, Organisationen, Orte) aus Textdaten.

Details:

  • Ziel: Identifikation und Klassifizierung von Entitäten in Texten
  • Kategorien: Personen (\textit{PER}), Organisationen (\textit{ORG}), Orte (\textit{LOC}), Datum (\textit{DATE}) etc.
  • Methoden: Regelbasierte Ansätze, Machine Learning, Deep Learning (z.B. LSTM, BERT)
  • Anwendung: Informationsextraktion, Text Mining, Fragebeantwortung

Dynamic Time Warping und Hidden Markov Modelle (HMM)

Definition:

Algorithmus zur Messung der Ähnlichkeit zwischen zwei temporal unterschiedenen Sequenzen.

Details:

  • DTW wird verwendet, um nicht-lineare Verzerrungen in Zeitreihen auszugleichen
  • Berechnung der minimalen Distanz zwischen Sequenzen durch dynamische Programmierung
  • DTW-Matrix: Kostentabelle, um optimale Pfade zu finden
  • HMM: statistisches Modell, das eine Markov-Kette mit verborgenen Zuständen repräsentiert
  • Verwendung in Sprach- und Mustererkennung
  • HMM besteht aus Zuständen, Übergangswahrscheinlichkeiten, Emissionswahrscheinlichkeiten und Anfangswahrscheinlichkeiten
  • Forward-Algorithmus: Berechnung der Wahrscheinlichkeit einer Beobachtungssequenz
  • Viterbi-Algorithmus: Finden des wahrscheinlichsten Zustandsweges
  • Baum-Welch-Algorithmus: Parameteroptimierung für HMM

Transfer Learning in der Sprachverarbeitung

Definition:

Transfer Learning ist eine Methode, bei der ein vorab trainiertes Modell auf eine neue, aber ähnliche Aufgabe angepasst wird, um Trainingszeit und Datenanforderungen zu reduzieren.

Details:

  • Wird verwendet, um Modelle effektiver auf spezifische Aufgaben zu trainieren, ohne von Grund auf neu zu starten.
  • Oft werden große, vortrainierte Modelle wie BERT, GPT oder T5 verwendet.
  • Feinabstimmung (\textit{Fine-Tuning}): Anpassung des vortrainierten Modells an die spezifischen Anforderungen der Zielaufgabe.
  • Wichtig für Aufgaben wie maschinelle Übersetzung, Textklassifikation, und Named Entity Recognition (NER).
  • Sparsamkeit: Weniger Daten und Rechenleistung nötig im Vergleich zum Training von Grund auf.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden