Core Concepts
提案手法「InstantFamily」は、マスククロスアテンションメカニズムと多モーダル埋め込みスタックを用いて、ゼロショット多人物同時生成を実現する。
Abstract
本論文は、多人物同時生成を可能にする「InstantFamily」という手法を提案している。
多人物の顔特徴を統合した多モーダル埋め込みスタックを導入し、テキストと顔の特徴を組み合わせる。
マスククロスアテンションメカニズムを用いて、各人物の位置と姿勢を精密に制御できるようにする。
これにより、単一人物のみならず、複数人物を自然に統合した生成画像を生成できる。
提案手法は、既存手法と比較して、人物の同一性保持と生成画質の両面で優れた性能を示す。
さらに、訓練時の人物数を超えて、柔軟に人数を変更できる拡張性も備えている。
Stats
提案手法は、単一人物生成時の同一性保持指標で0.799を達成し、既存手法を上回る。
多人物生成時の同一性保持指標は1.620で、既存手法のFastComposer(1.392)を上回る。
テキスト一貫性指標は0.205で、既存手法と同等の性能を示す。
Quotes
「提案手法は、単一人物のみならず、複数人物を自然に統合した生成画像を生成できる」
「提案手法は、訓練時の人物数を超えて、柔軟に人数を変更できる拡張性も備えている」