Core Concepts
動的表情認識では、顔の筋肉の局所的な変化に依存するため、従来の動作認識とは異なる特徴がある。本研究では、この特徴に着目し、CNNで抽出した多重スケールの空間特徴をトランスフォーマーで時間的特徴と統合することで、優れた動的表情認識を実現する。
Abstract
本研究は、動的表情認識(DFER)のための新しいアプローチ「MSSTNet」を提案している。DFERは、従来の動作認識とは異なり、顔の筋肉の局所的な変化に依存するため、特有の特徴を持つ。
MSSTNetの主な特徴は以下の通り:
CNNで抽出した多重スケールの空間特徴を「Multi-scale Embedding Layer」でエンコーディングし、トランスフォーマー(T-Former)に入力する
T-Formerは時間的特徴を抽出しつつ、多重スケールの空間情報も統合する
最終的に得られる多重スケールの時空間特徴を用いて表情を認識
実験の結果、MSSTNetは2つの実世界データセットで最先端の性能を達成した。また、ablation studyや可視化実験により、本手法の時空間特徴抽出の有効性が示された。
Stats
動的表情認識は、顔の筋肉の局所的な変化に依存するため、従来の動作認識とは異なる特徴を持つ。
MSSTNetは、CNNで抽出した多重スケールの空間特徴をトランスフォーマーで時間的特徴と統合することで、優れた動的表情認識を実現する。
MSSTNetは2つの実世界データセットで最先端の性能を達成した。
Quotes
"動的表情認識(DFER)は、顔の筋肉の局所的な変化に依存するため、従来の動作認識とは異なる特徴を持つ。"
"MSSTNetは、CNNで抽出した多重スケールの空間特徴をトランスフォーマーで時間的特徴と統合することで、優れた動的表情認識を実現する。"