本研究では、テキストから画像への拡散モデルにおける物体の遺漏と属性の誤結合の問題に取り組む。
まず、テキストプロンプトの物体指向の構造に着目し、物体トークンを中心とした注意マップの整列を目的とした新しい手法を提案する。具体的には、物体トークンを条件とした対数尤度最大化問題を定式化し、これを近似的に解くことで物体中心の属性結合損失を導出する。さらに、物体の注意集中度を調整するための正則化項を加えることで、物体の存在と属性の正しい結合のバランスを取る。
定量的および定性的な実験結果から、提案手法が既存手法に比べて優れた性能を示すことが分かった。特に、自然言語プロンプトを扱う際に顕著な改善が見られた。また、提案手法は注意マップの整列を通して、テキストによる画像編集の能力も大きく向上させることが示された。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Yasi Zhang,P... às arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07389.pdfPerguntas Mais Profundas