Core Concepts
提案された手法は、高品質な手の生成と正確なポーズ制御を可能にし、画像生成の性能を向上させる。
Abstract
この記事では、最近の拡散モデルによる人間画像生成の進歩と、手の解剖学的詳細やポーズ制御の課題に焦点を当てています。提案されたアプローチは、手生成器とボディ・アウトペインターを組み合わせた二段階の方法で構成されており、シームレスで一貫した合成画像を実現します。実験評価では、他の最先端技術に比べて優れた性能が示されています。
Introduction
人間画像生成における重要性と課題
拡散モデルの進化とその限界
Methodology
手生成器とボディ・アウトペインターの概要
マルチタスク訓練とブレンディング技術
Experimental Results
HaGRIDデータセットを用いた定量的評価結果
姿勢精度、画像品質、テキスト-画像一貫性の比較
Ablation Study on Blending Strategies
3つのブレンディング方法(バウンディングボックス、ナイーブ、順次マスク拡張)の比較結果
Stats
提案されたアプローチはHaGRIDテストセットでPose Accuracy(DAP, MPJPE)、Image Quality(FID, KID)、CLIPSIMで他の最先端技術を上回っています。