Core Concepts
多様式感情推論(EMER)は、感情予測に加えて、その根拠を提供することで、より信頼性の高い感情ラベルを得ることができる。さらに、LLMを活用して視聴覚情報と字幕を統合することで、微妙な感情も抽出できる可能性がある。
Abstract
本論文は、新しいタスクである「説明可能な多様式感情推論(EMER)」を提案している。従来の感情認識タスクとは異なり、EMERはこれらの予測に対する根拠も提供する。
データ収集の際は、まず視覚的・音響的手がかりを自動生成し、その後2回のチェックを行うことで、より信頼性の高いラベルを得ている。分析の結果、EMER記述には豊富な視覚的・音響的・言語的手がかりが含まれており、離散的感情認識や感情価の推定など、様々な感情関連タスクに活用できることが示された。さらに、オープンセットの感情ラベルも抽出可能であり、信頼性の高い感情認識への新しいアプローチを提供する。
本論文ではまた、EMERタスクのためのベースラインモデルも提案している。実験結果から、現状の多様式言語モデルでもEMERタスクをある程度解くことができるが、依然として大きな性能ギャップが存在することが明らかになった。
Stats
1サンプルあたりの視覚的手がかりの最小数: 0
1サンプルあたりの視覚的手がかりの最大数: 14
1サンプルあたりの視覚的手がかりの平均数: 4.95
離散感情認識の Top-1 精度: 93.48%
離散感情認識の Top-2 精度: 96.89%
感情価推定の相関係数: 0.881
感情価の正負分類の精度: 94.80%
感情価の正負分類の加重F1値: 94.86%
抽出された感情ラベルの総数: 232
1サンプルあたりの感情ラベルの最小数: 1
1サンプルあたりの感情ラベルの最大数: 12
1サンプルあたりの感情ラベルの平均数: 2.92