Khái niệm cốt lõi
Neuronale Akustische Modelle enthalten vielfältige Informationen, die nicht nur auf die Erkennung von Phonemen beschränkt sind.
Thống kê
Experiments are performed on both speaker verification, acoustic environment classification, gender classification, tempo-distortion detection systems and speech sentiment/emotion identification.
TDNN-F model was trained on the Librispeech dataset using the Kaldi toolkit.
The number of SE-Res2Net Blocks in ECAPA-TDNN is set to 4 with dilation values 2, 3, and 4.
The system has been trained on the VoxCeleb2 dataset for speaker verification.
The UrbanSound8k dataset was used for acoustic environments classification.
The Multimodal EmotionLines Dataset (MELD) corpus was used for speech sentiment/emotion recognition.
Trích dẫn
"Die niedrigeren Ebenen der versteckten Schichten erfassen Umgebungsgeräusche besser, mit der besten Leistung bei Layer4 in der Aufgabe der akustischen Umgebungen (Genauigkeit von 0,76)."
"Es scheint, dass die versteckten Schichten heterogene und strukturierte Informationen aus dem Sprachsignal enthalten, sei es auf Sprecher-, akustischer Umgebungs- oder paralinguistischer Ebene."
"Die versteckten Schichten enthalten Informationen, die das Geschlecht, die Sprechgeschwindigkeit, die Sprecheridentität, Emotionen und sentimentbezogene Informationen innerhalb dieses neuronalen Modells codieren."