核心概念
本文提出了一種名為 ToMe 的免訓練方法,透過合併相關標記來增強文字到圖像合成中的語義綁定,有效解決了現有模型在準確關聯物件及其屬性或子物件方面的挑戰。
論文概述
本論文旨在解決文字到圖像合成 (T2I) 模型中普遍存在的語義綁定問題,即模型難以準確地將語義相關的物件或屬性在生成的圖像中正確關聯起來。為此,作者提出了一種名為 ToMe(Token Merging,標記合併)的免訓練方法,透過將相關標記聚合成單一複合標記來增強語義綁定。
研究背景
現有的 T2I 模型雖然在圖像生成能力方面表現出色,但在處理複雜的文字提示時,經常無法準確地反映文字提示的細微差別,導致生成的圖像出現語義錯位。例如,即使是最先進的 T2I 模型也可能難以將帽子和太陽鏡正確地放置在目標物件上。為了解決這個問題,以往的研究提出了各種方法,包括優化潛在表示、使用佈局先驗引導生成以及微調 T2I 模型等。然而,這些方法在處理涉及多個物件和屬性的複雜場景時仍然存在局限性。
ToMe 方法
ToMe 方法的核心思想是將相關的標記(例如物件及其屬性)合併成一個單一的複合標記,並使用這個複合標記來生成圖像。具體來說,ToMe 方法包括以下三個關鍵步驟:
標記合併: 首先,ToMe 方法使用 CLIP 文字編碼器將文字提示轉換為標記嵌入。然後,對於每個物件及其相關的屬性,ToMe 方法將它們的標記嵌入相加,得到一個複合標記嵌入。
結束標記替換: 由於結束標記([EOT])包含了整個文字提示的語義信息,可能會干擾屬性表達,因此 ToMe 方法使用一個簡化的文字提示(例如“一隻貓和一隻狗”)的結束標記來替換原始的結束標記。
迭代複合標記更新: 為了進一步優化複合標記嵌入,ToMe 方法引入了兩個輔助損失函數:熵損失和語義綁定損失。熵損失用於確保複合標記的注意力集中在圖像的相關區域,而語義綁定損失則用於確保複合標記的語義與其所代表的名詞短語一致。
實驗結果
作者在 T2I-CompBench 和 GPT-4o 物件綁定基準測試集上對 ToMe 方法進行了評估。實驗結果表明,ToMe 方法在 BLIP-VQA 和人類偏好評分方面均優於現有的方法,特別是在涉及多物件多屬性生成的複雜場景中。
總結
ToMe 方法是一種簡單有效的方法,可以顯著提高 T2I 模型的語義綁定能力。與現有的方法相比,ToMe 方法具有以下優點:
免訓練: ToMe 方法不需要對 T2I 模型進行任何微調,因此更易於使用。
高效性: ToMe 方法的計算成本很低,可以應用於實時 T2I 生成。
魯棒性: ToMe 方法在處理複雜的文字提示時表現出很強的魯棒性。
未來方向
未來的研究可以探索將 ToMe 方法應用於其他 T2I 模型,例如基於 GAN 的模型。此外,還可以研究如何進一步提高 ToMe 方法的效率和魯棒性。
統計資料
在顏色、紋理和形狀屬性綁定子集上,ToMe 的 BLIP-VQA 分數分別為 0.7656、0.6894 和 0.6051。
在 GPT-4o 物件綁定基準測試集上,ToMe 的一致性得分為 0.9549。
使用 ImageReward 模型評估的人類偏好得分顯示,ToMe 生成的圖像與文字提示的一致性更高。