Core Concepts
異なるモダリティ間の補完関係を効果的に捉えるための再帰的クロスモーダルアテンション(RCMA)の提案。
Abstract
複数のモダリティから抽出された顔、声、およびテキストの融合に焦点を当てた次元感情認識について述べられている。
ビデオから抽出された各モダリティの特徴を交差注意重みで処理し、個々のモダリティの特徴表現を洗練する方法が提案されている。
実験結果はAffWild2データセット内の検証セットビデオで、提案された融合モデルがAffective Behavior Analysis in-the-Wild 2024(ABAW6)競技会の第六チャレンジで基準線よりも大幅な改善を達成したことを示している。
Method
空間と時間ダイナミクスを効率的にモデリングするために2D-CNNとRNNが使用されている。
顔エクスプレッションに関連する情報を含むビジュアルネットワークと音声ネットワークが紹介されている。
テキストネットワークではBERT特徴が使用され、TCNが時間関係性を捉えるために採用されている。
Recursive Cross-Modal Attention
音声(A)、ビジュアル(V)、およびテキスト(T)特徴から得られた共同特徴表現は、個々の視覚特徴と音声・テキスト特徴間の相互関係を捉えるために利用されている。
Experimental Setup
Affwild2データセットは野外条件で収集された最大規模のデータセットであり、トレーニング、検証、およびテストセットに分割されている。
ABAW6競技会向けに提出されたシステム実装詳細が記載されており、VGGやResnetなどが使用されている。
Results
提案手法と以前のABAWチャレンジで使用された手法と比較した結果が示されており、提案手法はAffwild2検証セット上で他手法よりも優れたパフォーマンスを達成している。
Stats
提案手法はABAW6競技会向けに開発。
Affwild2データセット:594本ビデオ。
Valence and arousal annotations provided continuously in the range of [-1, 1].