本論文では、StoryMakerと呼ばれる手法を提案している。StoryMakerは、テキストから画像を生成する際に、単に顔の一貫性を維持するだけでなく、服装、髪型、体型の一貫性も維持することで、物語性のある一連の画像を生成することができる。
具体的には、まず参照画像からキャラクターの顔の特徴と服装、髪型、体型の特徴を抽出する。次に、Positional-aware Perceiver Resampler(PPR)と呼ばれるモジュールを使ってこれらの特徴を統合し、キャラクター特徴を得る。さらに、キャラクター間や背景との混同を防ぐため、クロスアテンションの影響領域を正則化する。また、ControlNetを使ってポーズの情報を分離することで、ポーズの多様性を確保する。最後に、LoRAを使ってモデルの忠実度と品質を向上させる。
これらの手法を組み合わせることで、StoryMakerは顔、服装、髪型、体型の一貫性を維持しつつ、背景やポーズ、スタイルの変化に応じて物語性のある一連の画像を生成することができる。実験の結果、StoryMakerは既存手法と比べて優れた性能を示すことが確認された。また、服装の入れ替えやキャラクターの補間など、様々な応用が期待できる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問