本論文では、テキストベースの拡散モデルを用いて、生成画像のスタイルや構図、被写体の強調度合いを細かく制御する手法を提案している。
まず、テキストプロンプトを基本的な内容と、スタイルに関する要素に分解する。次に、それぞれの要素に対して個別の誘導項(guidance term)を設定し、時間的・空間的な重み付け関数(guidance scale function)を用いて、各要素の影響度を調整する。
これにより、基本的な構図を保ちつつ、特定の領域のスタイルを強調したり、被写体の重要度を調整したりするなど、細かな制御が可能となる。また、複数のスタイルを組み合わせたり、スタイルと被写体の重要度のバランスを調整したりすることもできる。
提案手法は、既存のテキスト誘導型の拡散モデルに直接適用でき、追加の学習は不要である。実験では、様々なスタイルの適用や、被写体の強調度合いの調整などを示しており、細かな制御性を実現できることを示している。
翻譯成其他語言
從原文內容
arxiv.org
深入探究