Core Concepts
Neuronale Akustische Modelle enthalten vielfältige Informationen, die nicht nur auf die Erkennung von Phonemen beschränkt sind.
Abstract
Inhaltsverzeichnis:
Einführung in automatische Spracherkennungssysteme
Architektur des Akustischen Modells
Vorgeschlagenes Protokoll zur Informationsanalyse
Untersuchte Aufgaben und Datensätze
Experimente und Ergebnisse
Schlussfolgerungen und Ausblicke
Hauptpunkte:
Fortschritte in der automatischen Spracherkennung durch neuronale Netzwerkarchitekturen
Schwierigkeiten bei der Interpretation von Informationen in Deep Neural Networks
Analyse der Informationsebenen in Akustischen Modellen
Untersuchung verschiedener Aufgaben wie Sprecheridentifikation und Emotionserkennung
Heterogene und strukturierte Informationen in den versteckten Schichten
Stats
Experiments are performed on both speaker verification, acoustic environment classification, gender classification, tempo-distortion detection systems and speech sentiment/emotion identification.
TDNN-F model was trained on the Librispeech dataset using the Kaldi toolkit.
The number of SE-Res2Net Blocks in ECAPA-TDNN is set to 4 with dilation values 2, 3, and 4.
The system has been trained on the VoxCeleb2 dataset for speaker verification.
The UrbanSound8k dataset was used for acoustic environments classification.
The Multimodal EmotionLines Dataset (MELD) corpus was used for speech sentiment/emotion recognition.
Quotes
"Die niedrigeren Ebenen der versteckten Schichten erfassen Umgebungsgeräusche besser, mit der besten Leistung bei Layer4 in der Aufgabe der akustischen Umgebungen (Genauigkeit von 0,76)."
"Es scheint, dass die versteckten Schichten heterogene und strukturierte Informationen aus dem Sprachsignal enthalten, sei es auf Sprecher-, akustischer Umgebungs- oder paralinguistischer Ebene."
"Die versteckten Schichten enthalten Informationen, die das Geschlecht, die Sprechgeschwindigkeit, die Sprecheridentität, Emotionen und sentimentbezogene Informationen innerhalb dieses neuronalen Modells codieren."