本論文は、新しいタスクである「説明可能な多様式感情推論(EMER)」を提案している。従来の感情認識タスクとは異なり、EMERはこれらの予測に対する根拠も提供する。
データ収集の際は、まず視覚的・音響的手がかりを自動生成し、その後2回のチェックを行うことで、より信頼性の高いラベルを得ている。分析の結果、EMER記述には豊富な視覚的・音響的・言語的手がかりが含まれており、離散的感情認識や感情価の推定など、様々な感情関連タスクに活用できることが示された。さらに、オープンセットの感情ラベルも抽出可能であり、信頼性の高い感情認識への新しいアプローチを提供する。
本論文ではまた、EMERタスクのためのベースラインモデルも提案している。実験結果から、現状の多様式言語モデルでもEMERタスクをある程度解くことができるが、依然として大きな性能ギャップが存在することが明らかになった。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문