Conceptos Básicos
FitDiT 是一種基於擴散模型的全新虛擬試衣方法,透過強化高解析度紋理細節、引入頻域學習和採用擴張鬆弛遮罩策略,有效解決了現有方法在處理複雜紋理和尺寸不匹配服裝方面的挑戰,顯著提升了虛擬試衣的真實感和準確性。
Resumen
論文概述
本篇論文介紹了一種名為 FitDiT 的新型虛擬試衣方法,旨在解決現有基於圖像的虛擬試衣技術在生成高保真度和穩健擬合圖像方面所面臨的挑戰。
研究背景
隨著電子商務的蓬勃發展,人們對便捷、個性化購物體驗的需求日益增長。基於圖像的虛擬試衣技術 (VTON) 應運而生,它能夠生成穿著特定服裝的人體模型的逼真圖像,從而提升消費者的購物體驗。
研究問題
現有虛擬試衣方法主要基於生成對抗網絡 (GANs) 或潛在擴散模型 (LDMs),但它們在處理複雜服裝紋理、真實光影效果以及逼真的人體描繪方面仍存在不足。具體而言,這些方法面臨著兩個主要挑戰:
- 豐富紋理感知的維持: 將複雜紋理(例如圖案、文字、條紋、商標)轉移到目標模型上時,由於基於 U-Net 的擴散結構對高解析度潛在特徵的關注度較低,因此難以有效保留這些細節。
- 尺寸感知的擬合: 在跨類別或尺寸不匹配的試衣場景中,服裝信息洩漏會導致生成的服裝覆蓋整個遮罩區域,從而影響擬合效果。
研究方法
FitDiT 提出了一種新穎的服裝感知增強技術,旨在利用擴散 Transformer (DiT) 更好地分配參數和注意力,以實現高保真度的虛擬試衣。
模型架構
FitDiT 採用並行分支架構,其中 Garment-DiT 從輸入的服裝圖像中提取詳細的服裝特徵,並通過混合注意力機制將這些特徵注入 DenoisingDiT。
DiT 定制化
為了更好地適應虛擬試衣任務,FitDiT 對 DiT 結構進行了定制化設計,主要包括以下三個方面:
- 結構精簡: 移除文本編碼器,減少參數數量,提高訓練和推理速度。
- 服裝條件調制: 利用圖像編碼器將服裝圖像編碼為嵌入向量,並與時間步嵌入向量結合,以服裝感知的方式調制 DiT 模塊中的特徵。
- 服裝特徵注入: 將 Garment-DiT 提取的服裝特徵通過混合注意力機制注入 DenoisingDiT,以保留豐富的服裝紋理信息。
擴張鬆弛遮罩策略
為了避免服裝形狀信息洩漏,FitDiT 提出了一種擴張鬆弛遮罩策略,該策略使用粗略的矩形遮罩並隨機調整其長度和寬度,使模型能夠自動學習目標服裝的最佳長度,並提升對服裝形狀的感知能力。
服裝紋理增強
FitDiT 採用兩階段訓練策略來維持豐富的紋理細節:
- 服裝先驗進化: 使用豐富的服裝數據對 Garment-DiT 進行微調,使其能夠渲染出色的細節。
- 頻域學習: 在像素空間中引入頻譜距離損失,使模型在優化過程中更加關注頻域中存在顯著差異的組成部分,從而提升服裝細節重建的保真度。
實驗結果
在 VITON-HD、DressCode 和 CVDD 三個公開數據集上進行的實驗表明,FitDiT 在定性和定量評估中均優於現有最佳虛擬試衣模型,尤其是在處理具有複雜紋理和尺寸不匹配的服裝方面表現出色。
主要貢獻
本篇論文的主要貢獻包括:
- 首次嘗試將擴散 Transformer (DiT) 定制化應用於虛擬試衣任務,通過分配更多注意力給高解析度特徵,克服了現有基於 U-Net 的 LDMs 在複雜紋理維持方面的局限性。
- 提出了一種服裝先驗進化策略,以更好地提取服裝的模式知識,並在像素空間中引入頻譜距離損失,以保留複雜的圖案。
- 提出了一種擴張鬆弛遮罩增強方法,使用粗略的矩形遮罩來減少服裝形狀的洩漏,並使模型能夠自適應地學習服裝的整體形狀。
- 通過大量的定性和定量評估,清楚地證明了 FitDiT 相對於現有最佳虛擬試衣模型的優越性,尤其是在處理具有豐富紋理和尺寸不匹配的服裝方面。此外,它還實現了具有競爭力的推理時間,單個 1024 × 768 圖像的推理時間為 4.57 秒,優於現有方法。
總結
FitDiT 透過強化高解析度紋理細節、引入頻域學習和採用擴張鬆弛遮罩策略,有效解決了現有方法在處理複雜紋理和尺寸不匹配服裝方面的挑戰,顯著提升了虛擬試衣的真實感和準確性。
Estadísticas
FitDiT 在未配對的 VITON-HD 數據集上,與表現次佳的 OOT-Diffusion 方法相比,KID 錯誤率顯著降低了 71.6%。
FitDiT 的推理時間為 4.57 秒,比 StableVITON 快 27%,比 IDM 快 54%。
Citas
"To the best of our knowledge, our FitDiT is the first attempt to customize the Diffusion Transformer (DiT) for virtual try-on applications, overcoming the limitations of current U-Net LDMs in complex texture maintenance by assigning greater attention to high-resolution features."
"Extensive qualitative and quantitative evaluations have clearly demonstrated FitDiT’s superiority over state-of-the-art virtual try-on models, especially in handling richly textured garments with size mismatches."