Core Concepts
提案モデルは、表情認識とマスク着用検知の2つのタスクを統合的に学習し、マスク着用時の表情認識精度を向上させる。
Abstract
本論文では、マスク着用時の表情認識と着用検知を統合的に学習するための多ブランチビジョントランスフォーマーモデルを提案している。
提案モデルの特徴は以下の通り:
2つのブランチを持つデュアルブランチアーキテクチャを採用し、粗粒度と細粒度の特徴を抽出する。
表情認識とマスク着用検知の2つのタスクを共有する特徴抽出部と、それぞれのタスクに特化した部分を持つ。
タスク間の情報交換を促すクロスアテンション機構を導入し、タスク間の相関を活用する。
実験の結果、提案モデルは既存手法と比べて高い精度を達成し、かつパラメータ数も少ないことが示された。特に、マスク着用時の表情認識精度が大幅に向上している。
Stats
マスク着用時のCK+データセットでの精度は77.02%
マスク着用時のJAFFEデータセットでの精度は70.59%
マスク着用検知のMMD-FMDデータセットでの精度は97.93%
Quotes
"提案モデルは、表情認識とマスク着用検知の2つのタスクを統合的に学習し、マスク着用時の表情認識精度を向上させる。"
"提案モデルは、既存手法と比べて高い精度を達成し、かつパラメータ数も少ない。"