本論文は、トレーニングフリーのレイアウトツーイメージ合成手法「LoCo」を提案している。LoCoは、テキストプロンプトとレイアウト指示の両方に合致した高品質な画像を生成することができる。
まず、LoCOは注意集中マップを活用して、目的の物体の正確な表現を得る「局所的な注意制約(LLAC)」を提案する。これにより、物体の位置を正確に制御できる。次に、これまで無視されていた開始トークンと終了トークンが持つ重要な意味情報を活用する「余白トークン制約(LPTC)」を提案する。これにより、物体の外見とレイアウト指示の整合性が向上する。
LoCOは既存のテキストツーイメージおよびレイアウトツーイメージモデルに統合でき、大幅な性能向上を実現する。実験の結果、LoCOは定量的・定性的に既存手法を大きく上回る性能を示した。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Peiang Zhao,... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2311.12342.pdfPerguntas Mais Profundas