Core Concepts
Diese Arbeit bietet eine vergleichende Analyse gängiger Signalzerlegungsmethoden wie die Kurzzeit-Fourier-Transformation und die Wavelet-Transformation sowie Metriken zur Bewertung der Sprachverständlichkeit, die häufig in Sprachverarbeitungsmodellen für maschinelles Lernen verwendet werden.
Abstract
Die Arbeit beginnt mit einer Einführung in die mathematischen Grundlagen von kontinuierlichen und diskreten Signalen sowie Konzepte wie Frequenzraum, Invertierbarkeit und Faltung. Anschließend werden die Kurzzeit-Fourier-Transformation (STFT) und die Wavelet-Transformation (WT) detailliert beschrieben.
Für die STFT werden Fensterfunktionen, ihre Eigenschaften und Anwendungen erläutert. Dabei wird gezeigt, wie STFT als Faltung mit Filtern implementiert werden kann.
Für die WT wird zunächst die kontinuierliche Version (CWT) behandelt, bevor die diskrete Version (DWT) und ihre Beziehung zu Filterbänken erklärt werden. Wichtige Konzepte sind hier Skalierungsfunktionen, Wavelet-Familien, Mehrstufenanalyse und Wavelet-Pakete.
Anschließend werden gängige Metriken zur Bewertung der Sprachverständlichkeit vorgestellt, wie der Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), die Perceptual Evaluation of Speech Quality (PESQ) und die Short-Time Objective Intelligibility (STOI).
Der letzte Teil der Arbeit behandelt das Anwendungsbeispiel der Sprecherisolierung. Hier werden die zuvor erläuterten Konzepte in einem konkreten Experiment angewendet, um die Vor- und Nachteile der verschiedenen Signalzerlegungsmethoden zu untersuchen.
Stats
Die Abtastfrequenz des Audiosignals beträgt 16.000 Hz.
Die Länge des Audiosignals beträgt 959.669 Samples.
Die STFT verwendet ein Hann-Fenster mit einer Größe von 32 ms.
Quotes
"Wavelet-Zerlegungen haben implizit eine Auflösung in der Zeitdomäne und benötigen keine zusätzlichen Fensterfunktionen."
"Die Beziehung zwischen Frequenz und Wellenlänge einer Welle ist reziprok. Die Struktur der DWT-Koeffizienten folgt diesem Muster und scheint daher eine natürlichere Darstellung von Signalen zu sein."