近年、テキストから画像生成モデルの開発において重要な進展が見られるものの、これらのモデルは生成プロセス中に完全な制御性を達成する際に依然として制限を抱えています。特定のトレーニングや限られたモデルの使用が必要であり、それでも特定の制約が存在します。この課題に対処するため、画像生成において制御性と高品質を効果的に組み合わせる二段階法が提案されています。この手法は事前トレーニング済みモデルの専門知識を活用して生成された画像に対して正確な制御を実現し、拡散モデルの力を利用して最先端の品質を達成します。制御性と高品質を分離することで、この手法は優れた結果を達成します。また、潜在空間および画像空間拡散モデルと互換性があり、柔軟性と多様性を確保します。さらに、この手法は現在の最先端技術と比較可能な結果を一貫して生み出します。
新しい方法ではトレーニングが不要であるコントロールされた画像生成方法が提案されています。第1段階では事前トレーニング済みセグメンテーションモデルが使用され、参照入力セグメンテーションマスクに基づいて非常にコントロールされた画像が生成されます。第1段階はコントロール面で優れていますが、品質や詳細が不足する場合があります。そのため、第1段階の出力は第2段階の拡散モデルに供給され、最終的なコントロールされた出力が生成されます。
拡散モデルはさまざまなビジョンタスクで主要な役割を果たすようになりました。特定の入力形式(ラベル付き意味的レイアウト)も導入しましたが、これらのアプローチは完全な制御性を提供しきれず、通常高価なトレーニング手順や特定のデータセットが必要です。
この作業では画像生成プロセスを2つの段階に分ける新しい方法が取られており、これは事前トレーニング済みセグメンテーションモデルと拡散テキストから画像へのモデルの強みを組み合わせることでコントロール可能な画像生成(TCIG)を実現しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Salaheldin M... at arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01212.pdfDeeper Inquiries