核心概念
スケッチと参照画像を入力として、幾何学と外観を分離して制御しながら高品質な人物画像を生成する。
要約
本研究は、スケッチと参照画像を入力として、人物の幾何学と外観を分離して制御しながら高品質な人物画像を生成する手法を提案している。
まず、スケッチ画像エンコーダを訓練して、スケッチ入力を幾何学潜在コードに変換する。次に、StyleGAN-Humanの生成器を微調整して、幾何学潜在コードと外観潜在コードを組み合わせることで、スケッチの幾何学情報と参照画像の外観情報を統合した人物画像を生成する。
具体的には以下の手順で行う:
- スケッチ画像エンコーダの訓練: スケッチと対応するパーシングマップ、生成画像のスケッチを用いて、スケッチを幾何学潜在コードに変換するエンコーダを訓練する。
- 生成器の微調整: 外観転移と幾何学保持の合成データを用いて、StyleGAN-Humanの生成器を微調整する。これにより、幾何学と外観の完全な分離を実現する。
定性的・定量的な評価から、提案手法が既存手法に比べて優れた性能を示すことが確認された。また、ユーザスタディでも、幾何学保持、外観転移、画質、ユーザ嗜好の全ての側面で提案手法が最も高い評価を得た。
統計
人物の姿勢、体型、衣服の形状や質感を正確に保持しながら、参照画像の色彩や質感を転移できる。
粗い抽象度のスケッチからも高品質な人物画像を生成できる。
引用
"スケッチは、簡単さ、修正の容易さ、詳細な表現能力から、望ましい幾何学を明示的に描くのに適している。"
"既存の方法では、人体の多様な姿勢、体型、衣服の形状と質感から生じる高い複雑性のため、高品質かつ多様な結果を生成することができない。"