Core Concepts
プリトレーンドモデルの特徴を活用し、マルチモーダルフュージョン手法を組み合わせることで、野生環境における感情行動分析の優れたパフォーマンスを実現する。
Abstract
本論文では、野生環境における感情行動分析の課題に取り組むために、プリトレーンドモデルの特徴とマルチモーダルフュージョン手法を組み合わせた手法を提案している。
まず、視覚、音声、テキストの各モダリティから特徴を抽出する。視覚特徴には、Clip-large、Resnet、Senet、Eva02-largeなどの事前学習モデルを使用し、音声特徴にはWavlm、Whisperv2、Whisperv3などを使用する。テキストモダリティについては、過去の競技結果から大きな性能向上が見られないため、融合は行わない。
次に、抽出した特徴を時系列タスクに適合させるため、補間や畳み込みを行う。その後、価値-覚醒推定タスクにはMCTN、MFN、注意機構ネットワークを、表情認識タスクにはMobileNetV3をバックボーンとし、Transformer Encoderを埋め込み層として使用する。
さらに、擬似ラベリング、ラベルスムージングなどの手法を取り入れ、モデルの性能向上を図る。
実験の結果、提案手法は価値-覚醒推定タスクでCCC 0.6943、表情認識タスクでF1スコア0.289を達成し、ベースラインを大きく上回る性能を示した。これは、プリトレーンドモデル特徴とマルチモーダルフュージョン手法の組み合わせが、野生環境における感情行動分析に有効であることを示している。
Stats
価値-覚醒推定タスクにおいて、提案手法はCCC 0.6943を達成した。
表情認識タスクにおいて、提案手法はF1スコア0.289を達成した。