Core Concepts
MAEの事前学習とTCN、Transformerの統合により、連続感情認識の性能が向上します。
Abstract
人間の感情認識は重要であり、ABAWコンペティションで新しいアプローチが提案されています。
MAEモデルは視覚特徴抽出器として活用され、TCNおよびTransformerモジュールが組み込まれています。
実験結果では、提案手法がベースラインを大幅に上回っていることが示されています。
VAチャレンジではCCCを使用し、ExprおよびAUチャレンジではF1スコアを評価指標として使用しています。
モデルはAff-Wild2データセットで実験され、感情認識の精度が向上しています。
導入
人間の感情認識は重要であり、ABAWコンペティションで新しいアプローチが提案されています。
関連研究
Aff-wild2データセットに関する以前の研究やモデルについて述べられています。
方法論
MAE事前学習:大規模な顔画像データセットでMAEモデルを事前学習しました。
Temporal Convolutional Network:動画をセグメントに分割し、TCNを使用して時間エンコードを行っています。
Temporal Encoder:トランスフォーマーエンコーダーを使用してビデオセグメント内の時間情報をモデリングしています。
実験と結果
提案手法はVAおよびExprチャレンジで優れた性能を示しました。
テーブル1には5つのタスクごとの実験結果が示されており、提案手法がベースラインを大幅に上回っていることが確認されています。
Stats
MAE事前学習中にAdamWオプティマイザーを使用しました。バッチサイズ1024で500エポック実行。次にMAEのファインチューニング段階ではバッチサイズ256と学習率0.0001に設定。