Alapfogalmak
拡散モデルにおけるクロスアテンション層の支配的な注意を軽減し、生成された画像の意味的忠実度を向上させるために、注意規制が効果的であることを示す。
Kivonat
最近の拡散モデルは、生成された画像の知覚品質を向上させてきました。しかし、これらのモデルはしばしば関連するテキストプロンプトの意図したセマンティクスを正確に反映する画像を生成することに苦労しています。本研究では、クロスアテンション層で特定のトークンに過剰な焦点が当てられる傾向があり、これがセマンティックな忠実度を損なっていることを明らかにします。この問題に対処するために、推論時にアテンションマップを調整する計算効率の良い「注意規制」アプローチを導入します。我々の方法は追加トレーニングや微調整を必要とせず、モデルへのプラグインモジュールとして機能し、元々のモデルの生成能力が完全に保持されます。他の手法と比較し、我々のアプローチは異なるデータセット、評価メトリック、および拡散モデルで一貫して優れた結果を示しました。
Statisztikák
本研究ではβ = 0.1で最適な結果が得られた。
推論時間は48%増加した。
我々の方法は他の基準線手法よりもLPIPSスコアが低く抑えられている。
Idézetek
"Attention regulation effectively improves semantics alignment with prompts by modifying the cross-attention maps at inference time without fine-tuning the model."
"Experimental outcomes demonstrate the superior efficacy of our attention regulation approach, significantly improving the semantic coherence of generated images with comparably less computational overhead during inference against baseline methods."