Kernekoncepter
Das Ziel dieses Forschungsprojekts ist es, ein KI-System zu entwickeln, das in Konversationen die Emotionen der Sprecher erkennt und die Ursachen dafür identifiziert. Dafür werden Texttranskripte, Audioaufnahmen und Videoaufnahmen der Konversationen analysiert.
Resumé
Dieser Artikel beschreibt ein KI-System, das entwickelt wurde, um die Emotion und die Ursache der Emotion in Konversationen zu erkennen. Das System verwendet verschiedene Encoder-Modelle, um die Texttranskripte, Audioaufnahmen und Videoaufnahmen der Konversationen zu verarbeiten.
Das System besteht aus drei Hauptkomponenten:
Emotion-Klassifikation: Das System erkennt, welche Emotion (Ärger, Ekel, Furcht, Freude, Neutral, Traurigkeit, Überraschung) in jeder Äußerung zum Ausdruck kommt.
Identifikation möglicher Ursachen: Das System identifiziert, welche Äußerungen als mögliche Ursachen für die erkannten Emotionen in Frage kommen.
Emotion-Ursachen-Paarung: Das System verknüpft die erkannten Emotionen mit ihren jeweiligen Ursachen.
Für die Evaluation wurden verschiedene Encoder-Modelle (BERT, DeBERTa, RoBERTa) für die Textverarbeitung, WavLM und Wav2Vec2 für die Audioverarbeitung sowie MViTv2 für die Videoanalyse getestet. Außerdem wurden unterschiedliche Architekuren (einfaches neuronales Netz, BiLSTM, BiLSTM-CRF) untersucht.
Die besten Ergebnisse wurden mit dem BiLSTM-Modell erzielt, das eine gewichtete F1-Punktzahl von 0,1836 und eine Makro-F1-Punktzahl von 0,1759 erreichte und damit den 8. Platz auf der Rangliste belegte.
Statistik
Die Emotion "Neutral" ist mit Abstand am häufigsten im Datensatz vertreten.
Die Emotion "Ekel" kommt am seltensten vor.
Citater
"Konversation ist die natürlichste Form der menschlichen Kommunikation, bei der jede Äußerung eine Vielzahl möglicher Emotionen umfassen kann."
"Während signifikante Arbeiten zur Erkennung von Emotionen in Texten geleistet wurden, gibt es relativ wenig Arbeiten zur Identifikation der Ursachen dieser Emotionen, insbesondere in multimedialen Umgebungen."