核心概念
本文提出了一種基於注意力損失反向傳播的無需訓練方法,通過巧妙地控制交叉注意力圖,實現了對 T2I 擴散模型的佈局控制和語義引導,解決了圖像生成中對象屬性不匹配和佈局控制不足的問題。
摘要
基於注意力損失反向傳播的 T2I 擴散模型佈局控制和語義引導
論文概述
本研究論文探討了基於擴散模型的可控圖像生成技術,特別關注解決電子商務領域中圖像生成過程中出現的屬性錯位和缺乏佈局控制等問題。
研究背景
可控圖像生成旨在創造既有創意又符合邏輯,同時滿足特定條件的圖像。在後 AIGC 時代,可控生成依賴於擴散模型,並通過維持特定組件或引入推理干擾來實現。然而,現有方法在處理對象屬性匹配和佈局控制方面存在不足。
研究方法
本文提出了一種基於注意力損失反向傳播的無需訓練方法,通過巧妙地控制交叉注意力圖來解決上述問題。該方法利用外部條件(如可合理映射到注意力圖上的提示),在無需任何訓練或微調的情況下控制圖像生成。
語義引導
針對屬性錯位問題,研究人員提出了語義引導方法。該方法利用交叉注意力圖信息調整去噪過程中的中間潛變量,強化文本提示與激活圖中激活值之間的映射關係,引導模型生成文本提示中描述的所有主體。
佈局控制
為了解決佈局控制問題,研究人員明確引入了佈局信息,從額外的受控分佈中採樣,在生成過程中引導佈局。用戶指定的佈局對應於選定的文本標記,允許通過交叉注意力調整生成圖像的空間佈局。
研究結果
實驗結果表明,該方法有效解決了屬性錯位和佈局優化問題,提升了可控圖像生成的性能。
研究結論
本文提出了一種基於注意力損失反向傳播的無需訓練方法,通過對交叉注意力圖施加損失約束,實現了可控圖像生成。該方法為解決可控生成中的提示遵循和佈局遵循問題提供了有效方案,具有重要的實際應用價值。
統計資料
根據最終實驗觀察結果,確定 T𝑒𝑛𝑑=25,此時生成圖像中對象的空間位置不會改變,產生了良好的效果。
SD 默认设置中 T = 50。
引述
"To address issue 1, we propose semantic guidance, which leverages cross-attention map information to adjust the intermediate latent during the denoising process, enabling a stronger mapping between the text prompt and the activation values in the activation map, thereby guiding the model to generate all subjects described in the text prompt."
"To tackle issue 2, we explicitly introduce layout information, sampling from an additional controlled distribution to guide the layout during the generation process. The user-specified layout corresponds to the selected text tokens, allowing spatial layout adjustments of the generated images through cross-attention."