核心概念
本文提出了一種名為 ParallelEdits 的新型文字驅動圖像編輯方法,該方法可以高效地同時編輯圖像中的多個方面,例如物件、屬性和關係,並在保留圖像原始內容的同時實現高品質的編輯效果。
摘要
本文介紹了 ParallelEdits,這是一種針對多方面文字驅動圖像編輯的高效且有效解決方案。與現有方法不同,ParallelEdits 不僅保留了單一屬性編輯的品質,還顯著提高了多任務編輯的效能。這是通過創新的注意力分配機制和跨多個處理頭運作的多分支設計實現的。此外,本文還介紹了 PIE-Bench++ 資料集,它是對原始 PIE-Bench 資料集的擴展,旨在更好地支援同時涉及多個物件和屬性的圖像編輯任務評估。
引言
現有的文字驅動圖像編輯方法主要集中在編輯源圖像中的單一方面,而對通過文字提示編輯多個方面的能力卻很少探索。本文介紹了多方面文字驅動圖像編輯的概念,以彌合這一差距。多方面圖像編輯使用戶能夠同時操作圖像中的各種方面,例如新增、刪除物件,更改物件屬性或背景。
然而,直接應用單一方面文字驅動圖像編輯方法在必須修改多個圖像方面的情況下通常無法產生令人滿意的結果。雖然可以按順序應用單一方面編輯方法,但這會導致更高的計算開銷,並且修改順序可能會影響品質。
方法
ParallelEdits 基於一個關鍵洞察力,即編輯步驟可以與圖像的擴散步驟並行發生。因此,在 ParallelEdits 中,圖像方面編輯被構建到擴散步驟中,以加速編輯過程。ParallelEdits 基於具有固定數量附加分支的架構,這些分支專用於處理剛性、非剛性和樣式變化。這種設計確保了可擴展性,而與更改的提示方面數量無關。
方面分組
首先,使用通過運行幾次擴散過程生成的注意力圖將源圖像中的方面分組到最多 N 個組中,每個組由一個不同的分支處理。方面分組分為兩個步驟:
為每個編輯操作分配一個類型(全局編輯、局部剛性編輯或局部非剛性編輯)。
將每個編輯操作分類到 N 個組中,這些組根據注意力圖之間的重疊程度進行創建。
無反演多分支編輯
每個分支接收一組特定的方面,並執行無反演編輯。第 n 個分支根據其 (n-1) 個分支進行校準,第一個分支根據源分支進行校準。N 路目標分支校準可以同時進行,從而節省了大量的計算時間。
跨分支交互
對於剛性局部分支,來自先前分支的交叉注意力圖要麼被切換到當前分支,要麼被注入當前分支。
對於非剛性局部分支,保留先前分支中的關鍵和值特徵,同時使用先前分支的注意力遮罩來指導編輯過程。
對於所有全局分支,不會替換注意力特徵或遮罩,並且注意力遮罩不會用於指導編輯過程。
實驗
PIE-Bench++ 資料集
本文介紹了一個新的資料集 PIE-Bench++,它源自 PIE-Bench,專用於評估多方面圖像編輯的效能。PIE-Bench++ 擴展了 PIE-Bench,允許進行多方面編輯:57% 的資料集每個提示有兩個方面編輯,19% 的資料集有兩個以上的編輯,其餘 24% 的資料集有一個方面編輯。
評估指標
除了標準評估指標外,本文還介紹了兩個專為評估多方面文字驅動圖像編輯而設計的新指標:
方面準確度-LLaVA:利用大型視覺語言模型(LLaVA)來評估多方面圖像編輯的準確度。
方面準確度-CLIP:使用 CLIP 相似度來評估屬性是否已成功編輯。
結果
在 PIE-Bench++ 資料集上的實驗結果表明,ParallelEdits 在編輯效果方面優於所有基準模型,執行時間略長於 InfEdit 模型。消融研究和分析進一步證明了 ParallelEdits 的多分支設計、早期方面分組和跨不同編輯方面數量的穩健性的有效性。
結論
ParallelEdits 是一種新穎的方法,可以熟練地同時處理多個屬性編輯,通過獨特的注意力分組機制在單個和多個屬性編輯中保持編輯品質,而不會增加計算複雜度。
局限性和失敗案例
無法處理圖像中的文字編輯。
無法編輯劇烈的背景變化。
未來方向
根據圖像各個方面的內在順序進行編輯。
改進 ParallelEdits 的局限性。
統計資料
57% 的 PIE-Bench++ 資料集每個提示有兩個方面編輯。
19% 的 PIE-Bench++ 資料集有兩個以上的編輯。
24% 的 PIE-Bench++ 資料集有一個方面編輯。