本論文では、マルチモーダル感情分析(MSA)における、モダリティの重要度が均等または不均等に分布している問題を同時に解決するために、知識に基づく動的なモーダルアテンション融合フレームワーク(KuDA)を提案している。KuDAは、異なるシナリオに対して各モダリティの貢献度を動的に調整することで、支配的なモダリティの活用を効果的に向上させる。これにより、4つの一般的なMSAベンチマークデータセットにおいて、より効果的で汎用性の高いモデルを実現している。
ソーシャルメディア上では、ユーザーの感情表現は複数のモダリティに反映されるため、マルチモーダル感情分析(MSA)が近年注目されている。従来のMSA手法は、三項対称ベースの手法とテキスト中心ベースの手法の2つに大別される。三項対称ベースの手法は、各モダリティの貢献度を均等に扱い、すべてのモダリティペアの双方向の関係をモデル化する。一方、テキスト中心ベースの手法は、テキストを主要モダリティとして使用し、視覚や音声モダリティをテキストと相互作用させることで、異なるモダリティの貢献度を適切に調整することに焦点を当てる。しかし、これらの手法は、どのモダリティが支配的になるかわからない状況に対応できないという限界がある。
KuDAは、感情知識を用いて、支配的なモダリティを動的に選択し、各モダリティの貢献度を調整することで、従来手法の限界を克服する。具体的には、KuDAはまず、BERTモデルと2つのTransformerエンコーダを用いて、テキスト、視覚、音声モダリティの意味的特徴を抽出する。次に、KuDAは、アダプタとデコーダによって感情知識の注入と感情比率の変換を行い、感情の手がかりを抽出し、KuDAが支配的なモダリティをさらに選択できるように導く。次に、動的注意融合モジュールは、類似した感情情報を捉え、感情知識と異なるレベルのマルチモーダル特徴を相互作用させることで、モダリティ間の注意重みを徐々に調整するように設計されている。最後に、KuDAは、多層パーセプトロンによって感情スコアを予測する。
4つの公開ベンチマークデータセット(CH-SIMS、CH-SIMSv2、MOSI、MOSEI)を用いて、KuDAの性能を評価した。その結果、KuDAは、すべてのデータセットにおいて、最先端のベースラインよりも優れた性能を達成した。特に、モダリティの重要度の分布がより均一で、より複雑なCH-SIMSおよびCH-SIMSv2データセットにおいて、KuDAは、従来手法と比較して、精度が大幅に向上した。
本論文では、知識に基づく動的なモーダルアテンション融合フレームワーク(KuDA)を提案した。KuDAは、感情知識を用いて、支配的なモダリティを動的に選択し、各モダリティの貢献度を調整することで、MSAの性能を向上させる。実験の結果、KuDAは、様々なシナリオにおいて優れた性能を実現することが示された。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询