Core Concepts
事前に単一モーダルで学習されたモデルを適応させることで、マルチモーダルな動的表情認識の性能を向上させることができる。
Abstract
本論文は、野生の動的表情認識(DFER)のためのマルチモーダルアプローチを提案している。具体的には、事前に単一モーダルで学習されたモデルを適応させることで、マルチモーダルな動的表情認識の性能を向上させることを示している。
まず、単一モーダルモデルの適応における3つの主な課題を特定している:
単一モーダル内の適応(intra-modality adaptation)
モダリティ間の整合性(cross-modal alignment)
時間的な適応(temporal adaptation)
これらの課題に対して以下のソリューションを提案している:
単一モーダル内の適応: 漸進的なプロンプトチューニング
モダリティ間の整合性: Fusion Bottleneck ブロック
時間的な適応: マルチモーダル時系列トランスフォーマー
提案手法をDFEW and MAFW データセットで評価し、現状最高の性能を達成している。
Stats
動的表情認識は実世界アプリケーションにとって重要である。
大規模なマルチモーダルデータの収集は困難であるが、自己教師あり学習を活用することで解決できる。
事前学習された単一モーダルモデルを適応させることで、マルチモーダル動的表情認識の性能を向上できる。
Quotes
"Dynamic Facial Expression Recognition (DFER) has re-ceived significant interest in the recent years dictated by its pivotal role in enabling empathic and human-compatible technologies."
"Multimodal learning in DFER increases the model capabilities by leveraging richer, complementary data representations."
"We show that with appropriate adaptation, we can obtain beyond state-of-the-art results on two popular DFER benchmarks."