Основные понятия
提案手法は、テキスト情報を活用した視覚-テキスト対比学習を用いて、微表情認識の性能を大幅に向上させる。さらに、視覚情報に基づいて動的にプロンプトを生成するAdaptive promptingモジュールを導入することで、コンテキスト情報を効果的に取り入れている。また、微表情認識の結果を感情理解に活用する際、テキスト予測が他のモダリティよりも優れた性能を示すことを実証的に明らかにしている。
Аннотация
本研究では、微表情認識(Micro Gesture Recognition: MGR)と感情理解の2つのタスクに取り組んでいる。
MGRタスクでは、従来の単一モダリティ(RGB or スケルトン)に基づく手法に対して、テキスト情報を活用した視覚-テキスト対比学習を提案している。具体的には、動画エンコーダーとテキストエンコーダーを用いて、微表情クリップと対応するラベルをそれぞれ視覚表現と言語表現にエンコーディングする。その上で、これらの表現の類似度を最大化するように学習を行う。さらに、従来のハンドクラフトされたプロンプトでは視覚情報を十分に活用できないという課題に対して、Adaptive promptingモジュールを提案している。このモジュールは、視覚表現とテキスト表現の関係性をマルチヘッド自己注意機構を用いて捉え、コンテキスト依存的なプロンプトを生成する。
感情理解タスクでは、MGRの結果を活用する際の異なるモダリティ(視覚表現、確率ベクトル、テキスト予測)の影響を検証している。その結果、MGRのテキスト予測を入力として用いる方が、他のモダリティよりも感情理解の精度が約2%向上することを示している。
提案手法は、2つの公開データセットにおいて、従来手法を大きく上回るState-of-the-Art(SoTA)の性能を達成している。
Статистика
微表情認識の精度トップ1が、従来手法のTSMから5%以上向上した。
感情理解の精度トップ1が、従来のRGB/スケルトンベースの手法から約2%向上した。
Цитаты
"心理学研究によると、微表情は人間の感情と密接に関連している。"
"従来の微表情認識手法は単一のモダリティ(RGB or スケルトン)に依存しており、重要なテキスト情報を活用していない。"
"提案手法のAdaptive promptingモジュールは、視覚情報に基づいてコンテキスト依存的なプロンプトを生成することで、従来のハンドクラフトされたプロンプトを改善している。"