現在の主題駆動型画像生成方法は、訓練不均衡と品質の妥協に直面しています。Face-diffuserは、効果的な共同生成パイプラインを提供し、高品質な画像を生成することができます。Face-diffuserは、テキスト駆動拡散モデル(TDM)と被写体増強拡散モデル(SDM)に基づいており、3つの連続した段階に分かれたサンプリングプロセスを使用します。具体的には、意味シーン構築、被写体-シーン融合、被写体強化の各段階があります。新しい共同メカニズムであるSaliency-adaptive Noise Fusion(SNF)を介して協力が達成されます。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yibin Wang,W... lúc arxiv.org 03-05-2024
https://arxiv.org/pdf/2311.10329.pdfYêu cầu sâu hơn