Core Concepts
本研究は、大規模な自己教師学習を活用して、音声-視覚感情認識の発展を促進する新しい自己教師学習フレームワークHiCMAEを提案する。HiCMAEは、中間層の表現学習を明示的に促進する3つの戦略を導入し、従来の手法よりも優れた性能を示す。
Abstract
本研究は、自己教師学習を用いて音声-視覚感情認識の性能向上を目指す新しいフレームワークHiCMAEを提案している。
HiCMAEの主な特徴は以下の通りである:
エンコーダとデコーダ間の階層的スキップ接続を導入し、中間層の表現学習を促進する。これにより、デコーダが欠損部分の復元に役立つ中間層の特徴を活用できるようになる。
中間層の表現に対して階層的な cross-modal 対照学習を適用し、段階的に音声-視覚モダリティギャップを縮小する。これにより、後の cross-modal 融合が強化される。
下流タスクのファインチューニング時に、多層の特徴を階層的に融合することで、より包括的な特徴表現を得る。
大規模な自己教師学習と提案手法の3つの戦略により、HiCMAEは9つのデータセットにおいて、従来の最先端の教師あり手法や自己教師学習手法を大幅に上回る性能を示した。これは、HiCMAEが強力な音声-視覚感情表現学習器であることを示している。
Stats
音声-視覚感情認識タスクにおいて、HiCMAEは従来手法を大幅に上回る性能を示した。例えば、CREMA-D (6クラス)データセットでは、最良の既存手法VQ-MAE-AVを4.49%WAR上回り、MAFW (11クラス)データセットではT-MEPを5.02%WAR、DFEW (7クラス)データセットでは6.16%WAR上回った。