Kernkonzepte
本文提出了一種名為 BooW-VTON 的新型虛擬試衣方法,透過無遮罩的偽數據訓練和真實世界數據增強,提升虛擬試衣在真實場景中的效果,並透過消融實驗證明了方法的有效性。
Zusammenfassung
論文概述
本論文提出了一種名為 BooW-VTON 的新型圖像虛擬試衣訓練方法,旨在解決現有方法中試衣遮罩對學習框架造成的損害,從而在真實世界場景中實現更出色、更逼真的試衣效果。
主要貢獻
- 提出了一種無遮罩的真實世界虛擬試衣擴散模型 BooW-VTON,無需任何額外解析器即可生成逼真的試衣結果。
- 提出了一種簡單有效的方法,透過構建無遮罩的偽數據和試衣定位損失來實現高性能的試衣模型。
- 在多個具有挑戰性的虛擬試衣基準測試中驗證了所提出方法的優越性能,顯著優於基準和其他最先進的方法。
方法介紹
-
無遮罩試衣擴散模型:
- 使用偽三元組數據 {P', G, P} 訓練模型,用 P' 替換原始的遮罩人物圖像,消除了模型對遮罩的依賴,並降低了遮罩創建成本。
- 使用 SDXL 作為試衣 U-Net,預先訓練的 IP-adapter 和 SDXL-Reference Net 作為服裝編碼器。
- 將服裝特徵注入試衣 U-Net,並透過注意力層根據人體特徵和服裝特徵之間的關聯來編輯服裝內容。
-
高質量偽數據準備:
- 使用基於遮罩的模型從 P 和 G' 生成 P',採用 IDM-VTON 作為基於遮罩的模型。
- 採用兩階段推理方法在相對簡單的店內場景中創建高質量偽數據,以減少遮罩造成的缺陷。
-
真實世界數據增強:
- 對三元組應用真實世界數據增強,以充分利用無遮罩試衣模型的優勢,並增強其在不同場景中的性能。
- 使用人物透明圖像和 T2I 模型創建背景 B,並使用 GPT-4o 和 Layerdiffusion 生成具有透明前景的物體圖像 F。
- 在每次訓練迭代期間,使用 F 和 B 對 {P', P} 進行真實世界數據增強,透過堆疊和組合圖像來幫助模型區分前景和試衣區域。
-
試衣定位損失:
- 應用注意力正則化作為試衣定位損失,以幫助模型正確識別試衣區域並編輯這些區域內的內容,同時保留非試衣區域中的內容。
- 使用試衣遮罩 M Aug 限制非試衣區域中的注意力分數,以確保注意力集中在試衣區域。
實驗結果
- 在 VITON-HD 和 DressCode 數據集上,BooW-VTON 在所有指標上均優於現有方法。
- 對於來自 StreetVTON 和 WildVTON 的真實世界試衣場景,BooW-VTON 顯示出優於大多數現有方法的顯著優勢。
局限性
- 在用戶可控性方面仍然存在局限性,限制了其消費者應用。
- 當缺乏對下裝的參考時,例如試穿 T 恤時,人物的下半身會隨機生成,這可能與期望的服裝風格不符。
總結
本論文提出了一種透過無遮罩偽數據訓練來增強真實世界虛擬試衣的新方法 BooW-VTON。透過構建高質量的偽數據、真實世界數據增強和試衣定位損失,BooW-VTON 在各種試衣場景中均優於現有方法。