Alapfogalmak
文本到圖像擴散模型在生成複雜提示涉及多個屬性和物體的圖像時,合成質量通常會下降。我們發現CLIP文本編碼器在理解屬性方面存在偏差和上下文問題,這影響了擴散模型的屬性綁定。我們提出Magnet,一種無需訓練的方法來解決這一問題。
Kivonat
本文首先分析了CLIP文本編碼器在理解屬性方面的局限性。我們發現CLIP文本編碼器存在屬性偏差和上下文問題,這導致了擴散模型在生成圖像時出現屬性綁定問題,如物體和屬性混淆、屬性洩漏等。
為了解決這一問題,我們提出了Magnet方法。Magnet通過在文本空間中引入正負綁定向量來增強每個物體與其屬性的關聯,並抑制與其他屬性的關聯。同時,我們引入鄰居策略來提高綁定向量的估計準確性。Magnet無需額外訓練或數據,可以直接應用於標準的擴散模型管道中。
實驗結果表明,Magnet顯著提高了合成質量和屬性綁定的準確性,同時計算和內存開銷很小。Magnet還展現了生成非自然概念的能力,彌補了現有擴散模型的局限性。
Statisztikák
在自然概念"紅色椅子"中,標準擴散模型生成的圖像質量較差,物體和屬性混淆嚴重。
在非自然概念"藍色蘋果"中,標準擴散模型忽略了目標顏色,只生成了自然概念"黃色蘋果"。
Magnet在生成自然概念和非自然概念圖像方面都有顯著改善,既保持了圖像質量,又準確地表達了屬性綁定。
Idézetek
"我們發現CLIP文本編碼器存在屬性偏差和上下文問題,這導致了擴散模型在生成圖像時出現屬性綁定問題。"
"Magnet通過在文本空間中引入正負綁定向量來增強每個物體與其屬性的關聯,並抑制與其他屬性的關聯。"
"實驗結果表明,Magnet顯著提高了合成質量和屬性綁定的準確性,同時計算和內存開銷很小。"