Die Studie untersucht verschiedene Ansätze zur Emotionserkennung aus Sprache, indem akustische und textbasierte Merkmale kombiniert werden.
Für die akustischen Merkmale werden Standard-Merkmale wie MFCCs, Pitch, Lautstärke usw. verwendet. Für die textbasierten Merkmale werden kontextualisierte Worteinbettungen mit BERT anstelle von Standard-Worteinbettungen wie Glove verwendet, da diese den Kontext besser berücksichtigen.
Es werden verschiedene Fusionsstrategien untersucht, bei denen die Audio- und Textinformationen auf unterschiedliche Weise kombiniert werden (Early Fusion, Late Fusion). Dabei werden auch verschiedene Trainingsansätze verglichen (Cold-Start, Pre-Training, Warm-Start).
Die Modelle werden auf den Datensätzen IEMOCAP und MSP-PODCAST evaluiert. Dabei zeigt sich, dass die Verwendung von BERT-Einbettungen im Vergleich zu Glove-Einbettungen zu deutlichen Verbesserungen führt. Außerdem bringt die Fusion von Audio- und Textinformationen signifikante Leistungssteigerungen gegenüber den Einzelmodellen.
Für den IEMOCAP-Datensatz wird außerdem gezeigt, dass die Art der Faltenerstellung einen großen Einfluss auf die Ergebnisse hat. Die übliche Praxis, die Faltung nach Sprechern vorzunehmen, führt zu einer unrealistisch optimistischen Einschätzung der Leistungsfähigkeit textbasierter Systeme.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문