Core Concepts
本研究は、複数の参照画像(姿勢、髪、顔、服装、靴など)を用いて、高品質で柔軟な人物画像を生成する新しい枠組みを提案する。
Abstract
本研究は、人物画像の生成を制御可能にするための新しい枠組み「Parts2Whole」を提案する。主な特徴は以下の通り:
言語ラベルを用いた意味認識エンコーダ: 参照画像の各部位(髪、顔、服装など)に対して言語ラベルを付与し、エンコーダに入力することで、各部位の詳細な特徴を保持できる。
共有自己注意機構: 参照画像の特徴と生成画像の特徴を共有する自己注意機構を導入し、参照情報を効果的に注入できる。
マスク付き自己注意: 参照画像のマスク情報を自己注意機構に組み込むことで、指定した部位のみを正確に参照できる。
これらの手法により、Parts2Wholeは既存手法に比べて高品質で柔軟な人物画像を生成できる。実験結果から、提案手法は参照画像の詳細を保持しつつ、自然で整合性の高い人物画像を生成できることが示された。
Stats
提案手法は既存の参照ベースの手法に比べて、CLIP スコア91.2、DINO スコア93.7、DreamSim スコア0.221と高い性能を示した。
FIDスコアは17.29と低く、生成画像の高品質さが確認できる。
Quotes
"Parts2Whole は、テキスト、姿勢、様々な人物の外観を参照して、高品質で柔軟な人物画像を生成できる新しい枠組みを提案する。"
"提案手法は、参照画像の詳細を保持しつつ、自然で整合性の高い人物画像を生成できる。"