本文旨在系統地改善基於擴散模型的文本導向圖像編輯技術。分析發現,現有方法的失敗主要源於在融合源圖像和目標圖像的中間狀態時,保留現有特徵和生成新特徵之間的干擾。
為了解決這一問題,本文提出了"MaSaFusion"方法。首先,利用T2I-Adapter生成一個與目標圖像形狀一致但紋理不同的中間圖像。然後,在生成最終目標圖像時,將源圖像的注意力映射注入到編輯區域,而在非編輯區域則保留源圖像的特徵。這樣可以有效分離保留和生成,減少兩者之間的干擾。
實驗結果表明,與現有方法相比,MaSaFusion在定量指標和視覺效果上都有顯著提升。此外,本文還探討了外部條件和編輯區域對方法性能的影響。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania