本研究は、人間-コンピューター相互作用における感情の正確な認識と解釈の重要性に着目し、顔の表情、声のトーン、テキストの情報を統合した多様なモーダルアプローチを提案している。
具体的には、感情状態を3次元のValence-Arousal-Dominance (VAD)空間にマッピングすることで、感情の変動や正負の強さを反映した、より包括的な感情表現を実現する。K-means クラスタリングを用いて、従来の離散的な感情カテゴリから連続的なラベリングシステムへの変換を行い、この上に感情認識の分類器を構築した。
提案モデルの有効性は、中国映画やテレビドラマからの文化的に一貫したビデオクリップで構成されるMER2024データセットを用いて評価された。実験の結果、離散モデルと連続モデルの変換に成功し、提案モデルは高い精度を維持しつつ、より多様で包括的な感情表現を生成することができた。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiehui Jia, ... alle arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07901.pdfDomande più approfondite