Core Concepts
マルチモーダルデータを活用し、自己教師あり学習の複数のタスクを組み合わせることで、表情認識のための強力な特徴表現を学習できる。
Abstract
本研究では、表情認識のためのマルチタスクマルチモーダル自己教師あり学習手法を提案している。
提案手法は、3つの自己教師あり学習の目的関数を組み合わせている:
マルチモーダルの対比損失関数 - 同一のビデオ内の異なるモダリティ(映像、音声、テキスト)を近づける
マルチモーダルクラスタリング損失関数 - 意味的に類似したサンプルのモダリティを近づける
マルチモーダル再構成損失関数 - 各モダリティの特徴を個別に再構成する
提案手法は、3つの表情認識ベンチマークデータセットで優れた性能を示し、既存の自己教師あり学習手法や教師あり学習手法を上回る結果を得ている。
マルチモーダルの自己教師あり学習タスクを組み合わせることで、表情認識などの複雑なタスクに対して強力な特徴表現を学習できることが示された。
Stats
表情認識タスクにおいて、マルチモーダルの自己教師あり学習は教師あり学習よりも大幅な性能向上をもたらす。
CMU-MOSEI データセットでは、提案手法のConCluGenモデルが66.48%の精度を達成し、既存の自己教師あり学習手法や教師あり学習手法を上回る。
MELD データセットでは、提案手法のConCluモデルが58.0%の精度を達成し、最良の結果を示した。
CAER データセットでは、提案手法のConCluGenモデルが37.5%の精度を達成し、最良の結果を示した。
Quotes
"マルチモーダルの自己教師あり学習タスクを組み合わせることで、表情認識などの複雑なタスクに対して強力な特徴表現を学習できる"
"提案手法のConCluGenモデルは、CMU-MOSEI データセットで66.48%の精度を達成し、既存の手法を上回る結果を示した"
"提案手法のConCluモデルは、MELD データセットで58.0%の精度を達成し、最良の結果を示した"