最近の拡散モデルは、生成された画像の知覚品質を向上させてきました。しかし、これらのモデルはしばしば関連するテキストプロンプトの意図したセマンティクスを正確に反映する画像を生成することに苦労しています。本研究では、クロスアテンション層で特定のトークンに過剰な焦点が当てられる傾向があり、これがセマンティックな忠実度を損なっていることを明らかにします。この問題に対処するために、推論時にアテンションマップを調整する計算効率の良い「注意規制」アプローチを導入します。我々の方法は追加トレーニングや微調整を必要とせず、モデルへのプラグインモジュールとして機能し、元々のモデルの生成能力が完全に保持されます。他の手法と比較し、我々のアプローチは異なるデータセット、評価メトリック、および拡散モデルで一貫して優れた結果を示しました。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Yang Zhang,T... о arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06381.pdfГлибші Запити