核心概念
生成画像の姿勢一致性と多様な外観を活用することで、人体構造特徴を効果的に学習できる自己教師あり事前学習手法を提案する。
要約
本研究では、生成画像の姿勢一致性と多様な外観を活用することで、人体構造特徴を効果的に学習できる自己教師あり事前学習手法GenPoCCLを提案している。
まず、Stable Diffusionと T2I-Adapterを用いて、同一の人体姿勢に対して外観が異なる複数の画像を生成する。次に、これらの生成画像を用いて、姿勢一致型の多重正例対比学習を行うことで、人体構造特徴を効果的に学習する。さらに、[POSE]トークンを導入することで、人体特徴と姿勢特徴の両方を効果的に学習できるようにしている。
実験の結果、GenPoCCLは従来手法と比べて、人物姿勢推定、人物ReID、歩行者属性認識などの人物中心認識タスクにおいて優れた性能を示した。特に、従来手法の1%未満の生成データ量でも高い性能を達成しており、生成画像の有効活用が確認できた。
統計
人体姿勢推定タスクにおいて、GenPoCCLは従来手法と比べて、MPII datasetで+0.9%、MSCOCO datasetで+0.1%の性能向上を示した。
人物ReIDタスクにおいて、GenPoCCLは従来手法と比べて、Market-1501 datasetで+5.5%の性能向上を示した。
歩行者属性認識タスクにおいて、GenPoCCLは従来手法と比べて、PA-100K datasetで+0.6%の性能向上を示した。