表情認識タスクにおいて、ラベル分布学習を活用し、サンプルのラベル分布と感情クラスの分布を適応的に融合することで、より正確な表情認識を実現する。
本論文では、視覚言語モデルのテキストエンベディングを利用して表情表現を学習する新しい手法を提案する。さらに、感情から中立への変換と自己対比損失関数を導入することで、より識別性の高い表情表現を得ることができる。
ResEmoteNetは、畳み込みニューラルネットワーク、Squeeze-Excitation Network、残差ネットワークを組み合わせた新しいアーキテクチャで、表情認識の精度を向上させ、損失を削減する。