本論文は、感情認識対話(ERC)のための新しいマルチモーダルフレームワーク「TelME」を提案している。TelMEは、言語モデルを教師として活用し、非言語モダリティ(音声、視覚)の表現力を高めることで、全体的な感情認識性能の向上を図る。
具体的には以下の3つの主要コンポーネントから構成される:
特徴抽出: 言語、音声、視覚の各モダリティからそれぞれ感情関連特徴を抽出する。
知識蒸留: 言語モデルが持つ強力な感情認識能力を、音声・視覚モデルに蒸留することで、非言語モダリティの表現力を高める。
注意ベースのモダリティシフト融合: 強化された非言語モダリティの特徴が、言語モデルの感情表現を補完・強化する融合手法を採用する。
実験の結果、提案手法TelMEは、既存手法と比較して、特に多人数対話を含むMELDデータセットにおいて、最先端の性能を達成した。また、各コンポーネントの有効性を示す詳細な分析も行っている。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Taeyang Yun,... : arxiv.org 04-02-2024
https://arxiv.org/pdf/2401.12987.pdfDaha Derin Sorular