核心概念
大規模な手動ラベル付けデータセットの必要性を軽減するため、分析による合成を用いて、実際の環境における人間の姿勢と外観の多様性をより正確に捉えることができる、新しい姿勢推定フレームワークを提案する。
要約
分析による合成を用いた、実際の環境でのトレーニングのための一般化されたポーズ空間埋め込み
本論文では、従来の姿勢推定モデルが抱える、大規模な手動ラベル付けデータセットへの依存と、現実世界における人間の多様な姿勢や外観への対応不足という課題を解決することを目的とする。
分析による合成というパラダイムに基づき、人物の姿勢を画像から抽出し、その姿勢データを入力として画像を再構成するニューラルネットワークをトレーニングする。
姿勢の表現として、キーポイント座標のベクトルと、左右の身体部分を区別できる複数チャネルのスケルトン画像の2つを用いる。
トレーニングデータとして、多様な姿勢、外観、背景を含む合成データと、ラベル付けされていない現実世界の動画データを組み合わせる。
合成データを用いた事前トレーニングによりモデルを初期化し、現実世界のデータを用いた教師なし学習で現実のシナリオに適応させる。
さらに、特定の対象者の動画を用いたインスタンス固有の微調整により、モデルの精度を向上させる。