Music Processing Analysis - Cheatsheet
Grundlagen der digitalen Signalverarbeitung
Definition:
Grundlegende Techniken zur Analyse und Verarbeitung digitaler Signale.
Details:
- Diskrete Fourier-Transformation (DFT): Umwandlung von Zeit- in Frequenzdomain.
- Faltung: Mathematische Operation, um Linearität und Zeitinvarianz zu testen.
- Z-Transformation: Verallgemeinerung der DFT, nützlich für Stabilitätsanalysen.
- Abtasttheorem (Nyquist-Shannon): Bedingung zur Vermeidung von Aliasing.
- Filter: Low-Pass, High-Pass, Bandpass und Notch-Filter zur Frequenzselektion.
- Quantisierung: Digitalisierung analoger Signale, benötigt Rauschunterdrückung.
Fourier-Transformation und Kurzzeit-Fourier-Transformation (STFT)
Definition:
Transformation von Signalen in den Frequenzbereich. STFT unterteilt Signale in schmale Zeitfenster für zeitabhängige Frequenzanalyse.
Details:
- Fourier-Transformation: \(X(f) = \int_{-\infty}^{\infty}x(t)e^{-j2\pi ft}dt\)
- STFT: \(X(t, f) = \int_{-\infty}^{\infty}x(\tau)w(t-\tau)e^{-j2\pi f\tau}d\tau\)
- Wichtig für Musiksignalverarbeitung
- Verwendung von Fensterfunktionen (z.B. Hamming, Hann)
- Kompromiss zwischen Zeit- und Frequenzauflösung
- Anwendung: Spektrogramm
Filtertypen und deren Anwendungen
Definition:
Filtert Frequenzanteile in Audiosignalen nach bestimmten Kriterien.
Details:
- Tiefpassfilter: Lässt tiefe Frequenzen passieren, sperrt hohe Frequenzen.
- Hochpassfilter: Lässt hohe Frequenzen passieren, sperrt tiefe Frequenzen.
- Bandpassfilter: Lässt einen bestimmten Frequenzbereich passieren, sperrt andere.
- Bandsperrfilter (Notch-Filter): Sperrt einen bestimmten Frequenzbereich, lässt andere passieren.
- IIR-Filter: Infinite Impulse Response, nutzt Rückkopplung, effizienter Speicherbedarf.
- FIR-Filter: Finite Impulse Response, keine Rückkopplung, stabil, einfacher Entwurf.
- Anwendungen: Rauschunterdrückung, Frequenzanalyse, Signalverbesserung.
Rauschunterdrückung und Signalverstärkung
Definition:
Unterscheidung und Bearbeitung von Nutzsignal und Rauschen zur Verbesserung der Klangqualität in Musiksignalen.
Details:
- Nutzung von Filtern zur Rauschentfernung (z.B. Tiefpass-, Bandpass-Filter).
- Verstärkung des Nutzsignals durch Operationsverstärker oder digitale Signalverarbeitung (DSP).
- Rauschunterdrückungstechniken wie Spektralsubtraktion und adaptive Filter.
- Wichtigkeit der Signal-Rausch-Verhältnis (SNR): \(SNR = \frac{P_{Signal}}{P_{Rauschen}}\)
- Kompression und Expansion von Signalen zur Verbesserung der Dynamik.
Algorithmen zur Tonhöhenbestimmung: Autokorrelation und Cepstrum-Analyse
Definition:
Algorithmen zur Bestimmung der Tonhöhe, z.B. Autokorrelation und Cepstrum-Analyse, verwendet in der Musiksignalverarbeitung.
Details:
- Autokorrelation: Misst die Ähnlichkeit eines Signals mit sich selbst über verschiedene Zeitverzögerungen.
- Mathematisch: \[R(\tau) = \frac{1}{N} \sum_{n=0}^{N-1} x(n) \cdot x(n+\tau)\]
- Cepstrum-Analyse: Transformation des Signals mittels Fourier-Transformation, dann Anwendung der Logarithmusfunktion und eine weitere Fourier-Transformation.
- Mathematisch: \[c(n) = \text{IFT}(\text{log}(| \text{FT}(x(n)) |))\]
Maschinelles Lernen für Klangklassifikation und Tonhöhenbestimmung
Definition:
Verwendung von maschinellem Lernen zur Klassifikation von Klängen und Bestimmung von Tonhöhen in Audiodaten.
Details:
- Ziel: Automatische Erkennung und Kategorisierung von Musikinstrumenten, Genres, und Noten.
- Techniken: Überwachtes Lernen mit Feature-Extraktion (z.B. MFCC, Chromagramme).
- Modelle: KNN, SVM, CNN, RNN.
- Tonhöhenbestimmung: Autokorrelation, Cepstrum-Analyse, Deep Learning.
- Leistungsmetriken: Genauigkeit, Präzision, Recall, F1-Score.
- Anwendungsbereiche: Musikempfehlungssysteme, Musikanalysen, Musikproduktion.
Spektrogramme und Wellenlet-Transformation
Definition:
Transformationsmethoden zur Analyse und Verarbeitung von Musiksignalen.
Details:
- Spektrogramm: Zeit-Frequenz-Darstellung eines Signals.
- Berechnung: mittels kurzzeitiger Fourier-Transformation (STFT): \[\text{STFT}\{x(t)\}(m, \theta) = \sum_{n=-\infty}^{\infty} x[n] w[n-m] e^{-j \theta n}\]
- Achsen: Zeit (x-Achse), Frequenz (y-Achse), Amplitude (Farbskala).
- Wellenlet-Transformation: Ermöglicht multi-resolutionale Analyse.
- Nützlich zur Verarbeitung nicht-stationärer Signale.
- Kontinuierliche Wellenlet-Transformation (CWT): Austausch von Sinus-/Cosinus-Basen durch skalierte und verschobene Wellenlets:\[\text{CWT}\{x(t)\}(a, b) = \frac{1}{|a|^{1/2}} \int_{- \infty}^{\infty} x(t) \psi\left(\frac{t-b}{a}\right) dt\]
- Diskrete Wellenlet-Transformation (DWT): diskrete Skalen- und Verschiebungswerte, effizient zur Signalverarbeitung.
- Beispiele für Wellenlets: Haar, Daubechies.
Feature-Extraktionstechniken und Echtzeitanwendungen
Definition:
Feature-Extraktionstechniken dienen dazu, relevante Informationen oder Merkmale aus Musikdaten zu gewinnen; Echtzeitanwendungen ermöglichen die Verarbeitung dieser Merkmale in Echtzeit.
Details:
- Grundlegende Merkmale:
- Verfahren:
- Fourier-Transformation
- Mel-Frequenz-Cepstrum-Koeffizienten (MFCC)
- Zero-Crossing-Rate
- Herausforderungen von Echtzeitanwendungen:
- Latenzminimierung
- Ressourcenschonende Algorithmen