核心概念
本文提出了一種稱為擴散負面提示 (DNP) 的新方法,透過克服人類和擴散模型 (DM) 之間在理解負面概念上的語義差距,來改進基於文字提示的圖像合成。
摘要
論文摘要
本研究論文介紹了一種名為「擴散負面提示」(DNP) 的創新方法,旨在提升基於文字提示的圖像合成品質。研究指出,現有擴散模型 (DM) 在處理複雜場景或多物件生成時,常出現與文字提示不符或圖像品質不佳的問題。
論文作者認為,問題根源在於人類與 DM 之間存在「語義鴻溝」,導致人類直觀理解的負面概念與 DM 內部表徵產生落差。為此,DNP 提出「擴散負面採樣」(DNS) 機制,讓使用者得以視覺化 DM 所理解的負面概念。
具體而言,DNP 首先利用 DNS 生成與輸入文字提示相反的「擴散負面圖像」,再由使用者或圖像描述模型將其轉譯為自然語言,形成 DNP。最後,DM 會結合原始文字提示與 DNP 進行圖像合成,有效提升圖像品質與提示相符程度。
研究方法
- 擴散負面採樣 (DNS):透過修改擴散模型的引導因子,鼓勵模型生成與輸入文字提示相符機率最低的自然圖像,藉此呈現 DM 所理解的負面概念。
- 擴散負面提示 (DNP):將 DNS 生成的負面圖像轉譯為自然語言,形成 DNP,並與原始文字提示一同輸入 DM,引導模型生成更精確的圖像。
實驗結果
- 在 A&E 數據集上,相較於原始 Stable Diffusion 模型,SD+auto-DNP 方法在物件識別和圖像品質方面皆有顯著提升,甚至超越專為多物件生成設計的 A&E 模型。
- 在 H&H 數據集上,SD+auto-DNP 方法有效改善了 Stable Diffusion 模型在生成人類和手部圖像時常見的肢體扭曲和細節缺失問題。
研究結論
DNP 方法透過彌合人類與 DM 之間的語義差距,有效提升了基於文字提示的圖像合成品質。該方法具有通用性,可應用於各種擴散模型,並與其他圖像生成技術相結合,為未來圖像合成技術發展提供了新的方向。
統計資料
SD+auto-DNP 在 A&E 數據集上實現了 0.258 的最小物件 CLIP 分數,比 SD 高 6.6%。
SD+auto-DNP 在 A&E 數據集上的完整提示 CLIP 分數為 0.346,表明提示和圖像之間的良好一致性。
A&E+auto-DNP 在 A&E 數據集上實現了 0.276 的最小物件 CLIP 分數,非常接近 [3] 定義的 0.29 的最小物件 CLIP 分數理論上限。
在人類和手部提示方面,評估者更喜歡 SD+auto-DNP 的程度分別是正確性方面的三倍和質量方面的兩倍。