Project Music and Audio Processing - Cheatsheet
Digitale Filter
Definition:
Digitale Filter manipulieren Audiosignale, um unerwünschte Frequenzen zu entfernen oder gewünschte Frequenzen zu verstärken.
Details:
- Mathematisch beschrieben durch rekursive (IIR) oder nicht-rekursive (FIR) Gleichungen.
- Übertragungsfunktion: \[ H(z) = \frac{Y(z)}{X(z)} \]
- Zeitbereich-Gleichung für FIR-Filter: \[ y[n] = \beta_0 x[n] + \beta_1 x[n-1] + \beta_2 x[n-2] + ... + \beta_N x[n-N] \]
- Zeitbereich-Gleichung für IIR-Filter: \[ y[n] = \frac{\beta_0 x[n] + \beta_1 x[n-1] + \beta_2 x[n-2] + ... + \beta_N x[n-N]}{1 + \beta_1 y[n-1] + \beta_2 y[n-2] + ... + \beta_N y[n-N]} \]
- Beispiele: Tiefpass, Hochpass, Bandpass, Bandsperre.
Fourier-Transformation
Definition:
Mathematische Transformation zur Analyse von Signalen und deren Frequenzspektren.
Details:
- Umwandlung einer zeitabhängigen Funktion in Häufigkeitsbereich.
- Wichtige Eigenschaft: Lineare Transformation.
- Formel: \(F(\omega) = \int_{-\infty}^{\infty} f(t) e^{-i \omega t} dt\)
- Diskrete Fourier-Transformation (DFT) für diskrete Signale. Formel: \[F[k] = \sum_{n=0}^{N-1} f[n] e^{-i {2 \pi k n}/{N}}\]
Automatische Musikgeneration
Definition:
Generierung von Musik durch Algorithmen und maschinelles Lernen.
Details:
- Verwendung von neuronalen Netzen (RNNs, GANs)
- Algorithmen analysieren bestehende Musik, um Muster zu erkennen
- Parametrische Modelle: Regeln, die Musikproduktion steuern
- Learning-Modelle: Trainieren mit Datenbanken von Melodien
- Anwendungen: Filmindustrie, Spiele, individuelle Musikprojekte
- Potenziale: Entwurf neuer Musikstile, Automatisierung von Hintergrundmusik
Deep Learning für Audio
Definition:
Tiefes Lernen für Audioanalyse und -verarbeitung: Verwendung neuronaler Netzwerke zur Merkmalextraktion, Klassifizierung und Synthese von Audiosignalen.
Details:
- Architekturen: Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Transformer.
- Verfahren: Feature-Extraktion (z.B. Mel-Spektrogramme), End-to-End-Lernen.
- Anwendungen: Spracherkennung, Audio-Klassifikation, Musikgenerierung.
- Wichtige Konzepte: Time-Frequency-Representationen, Sequenzmodellierung, Datenaugmentierung.
- Ausgewählte Loss-Funktionen: Cross-Entropy-Loss, Mean Squared Error (MSE).
- Evaluation: Accuracy, Precision, Recall, F1-Score.
Musikempfehlungssysteme
Definition:
Systeme zur Empfehlung von Musik basierend auf Benutzerpräferenzen und historischen Daten.
Details:
- Nutzen Machine Learning und Algorithmen wie Collaborative Filtering und Content-Based Filtering.
- Messen Ähnlichkeiten zwischen Nutzern oder Inhalten, z.B. via Cosine Similarity oder Pearson-Korrelation.
- Verwenden oft Matrix-Faktorisierung (z.B. Singular Value Decomposition) für latente Features.
- Hybridansätze kombinieren verschiedene Techniken für bessere Genauigkeit.
- Evaluationsmetriken: Precision, Recall, F1-Score.
Psychoakustische Phänomene
Definition:
Psychoakustische Phänomene: Untersuchung, wie das menschliche Gehör Schall wahrnimmt und verarbeitet.
Details:
- Wahrnehmungsschwelle: Minimaler Schalldruckpegel, der gerade noch hörbar ist.
- Lautheit: Subjektive Wahrnehmung der Schallintensität.
- Maskierung: Ein Schallereignis wird durch ein anderes überdeckt.
- Klangfarbenwahrnehmung: Erkennung unterschiedlicher Klangcharakteristika trotz gleicher Tonhöhe und Lautstärke.
- Frequenzwahrnehmung: Unterscheidung und Identifikation unterschiedlicher Frequenzen.
- Verdeckungseffekte: Frequenzen, die in der Nähe eines lauten Tons unhörbar werden.
- Binaurale Effekte: Richtungsbestimmung und Entfernungseinschätzung von Schallquellen.
A/D und D/A-Wandlung
Definition:
Umwandlung von analogen in digitale Signale (A/D) und von digitalen in analoge Signale (D/A).
Details:
- A/D-Wandlung: Analoges Signal wird periodisch abgetastet und quantisiert. Ergebnis ist ein digitales Signal.
- D/A-Wandlung: Digitales Signal wird in ein analoges Spannungssignal umgewandelt.
- Abtastrate (\textit{Sampling Rate}): Häufigkeit der Signalabnahme pro Sekunde. Typische Werte: 44.1 kHz, 48 kHz.
- Quantisierung: Umwandlung des abgetasteten analogen Werts in einen digitalen Wert. Bittiefe (\textit{Bit Depth}): Anzahl der Bits pro Abtastwert.
- Nyquist-Theorem: Maximale Frequenz des Signals, die korrekt wiedergegeben werden kann, ist Hälfte der Abtastrate (Nyquist-Frequenz).
- Formeln:
- Nyquist-Frequenz: \[ f_N = \frac{f_s}{2} \]
- Quantisierungsstufen: \[ Q = 2^n \]
Audio-Plug-ins und Effekte
Definition:
Audio-Plug-ins: Softwarekomponenten, die die Funktionalität eines Audio-Systems erweitern, z.B. DAW. Effekte: Audiosignale modifizieren, z.B. Hall, Echo.
Details:
- VST, AU, AAX sind gängige Audio-Plug-in Formate.
- Effekte klassifizieren: Dynamikprozessoren (Kompressoren, Limiter), Modulationseffekte (Chorus, Phaser), Zeitbasierte Effekte (Reverb, Delay).
- Latenz beachten bei Echtzeit-Audioverarbeitung.
- Signalfluss: Send- und Insert-Effekte
- DSP-Theorien: Fourieranalyse, Faltung für Reverb