本文首先分析了CLIP文本編碼器在理解屬性方面的局限性。我們發現CLIP文本編碼器存在屬性偏差和上下文問題,這導致了擴散模型在生成圖像時出現屬性綁定問題,如物體和屬性混淆、屬性洩漏等。
為了解決這一問題,我們提出了Magnet方法。Magnet通過在文本空間中引入正負綁定向量來增強每個物體與其屬性的關聯,並抑制與其他屬性的關聯。同時,我們引入鄰居策略來提高綁定向量的估計準確性。Magnet無需額外訓練或數據,可以直接應用於標準的擴散模型管道中。
實驗結果表明,Magnet顯著提高了合成質量和屬性綁定的準確性,同時計算和內存開銷很小。Magnet還展現了生成非自然概念的能力,彌補了現有擴散模型的局限性。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Chenyi Zhuan... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19967.pdfDybere Forespørgsler