本稿は、顔表情認識 (FER) のためのグラフ深層表現学習 (GRL) に関するサーベイ論文である。FERは、人間の感情や意図を理解する上で重要な役割を果たしており、医療、教育、自動車、マーケティング、ロボット工学、エンターテイメント、顧客サービスなど、幅広い分野への応用が期待されている。
従来のFER技術は、畳み込みニューラルネットワーク (CNN) などの深層学習 (DL) 技術が主流であったが、複雑な顔の表情を正確にモデル化する上では、以下のようないくつかの課題に直面していた。
これらの課題を克服するため、近年、関係データや構造データを利用できるGRLが注目されている。GRLは、グラフの構造的および属性情報を保持しながら、グラフの要素またはサブグラフを連続ベクトル空間にマッピングすることを目的とする。
本稿では、FERにおけるグラフ表現、GRL、主要なデータセット、有望なアプローチについて解説している。
グラフは、複雑な関係構造をモデル化する上で重要な役割を果たす。FERの文脈では、グラフのノードは、顔のランドマーク、ピクセル、アクションユニット、関心領域などを表すことができる。エッジは、顔のランドマークのユークリッド距離、ノードの特徴の類似性、時間的関係(ビデオの画像間)、または顔のランドマーク間のリンクを介した顔の構造などを表すことができる。
GRLは、グラフのノードやエッジを低次元ベクトル空間に埋め込むことで、グラフの構造や特徴を学習する。FERでは、グラフ拡散、時空間グラフ、マルチストリームアーキテクチャなど、グラフ表現の有望なアプローチがいくつか提案されている。
FERタスク用のデータベースは、静的と動的の2つのグループに分類できる。また、データ収集の状況に基づいて、「in-lab」(実験室環境)と「in-the-wild」(自然環境)にも分類される。
GRLは、FERにおける複雑な顔の表情をモデル化する上で有望なアプローチである。GRLを用いることで、FERシステムの精度、堅牢性、汎化能力を向上させることができる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問