Die Studie untersucht verschiedene Ansätze zur Klassifizierung von Emotionen aus Sprache unter Verwendung akustischer und textbasierter Merkmale. Es wird gezeigt, dass die Verwendung kontextualisierter Worteinbettungen mit BERT zu besseren Ergebnissen führt als die Verwendung von Glove-Einbettungen. Außerdem werden verschiedene Strategien zum Kombinieren der Audio- und Textmodalitäten vorgeschlagen und evaluiert.
Wir stellen eine neuartige Deep-Learning-Architektur vor, die speziell für das funktionale Datenmodell des Mehrfachindex-Modells entwickelt wurde. Der Schlüssel liegt in der Integration adaptiver Basisfunktionsschichten und einer automatischen Suche nach Datentransformationen innerhalb des Deep-Learning-Frameworks.
Die vorgeschlagene Methode verbessert die Genauigkeit der Sprachemotion-Erkennung, indem sie die Korrelation der Frequenz (y-Achse) mit der Zeit (x-Achse) im Spektrogramm analysiert und Positionsinformationen durch Wissenstransfer überträgt.