核心概念
本文提出了一種針對文字引導的圖像編輯中小型物體生成問題的免訓練方法,並創建了一個新的基準數據集SOEBench用於評估模型在小型物體編輯任務上的性能。
論文概述
本論文關注文字引導的圖像編輯領域中小型物體生成存在的挑戰,並提出了相應的解決方案。具體而言,論文的主要貢獻包括:
提出小型物體編輯(SOE)任務,並構建了一個全面的基準數據集SOEBench,用於評估模型在該任務上的性能。
提出了一種基於多尺度聯合注意力引導的免訓練方法,以解決小型物體生成中存在的文字與圖像特徵對齊困難的問題。
SOEBench 數據集
現有的圖像編輯基準數據集主要關注於大尺寸物體的編輯,缺乏針對小型物體編輯的評估標準。為了解決這一問題,作者從 MSCOCO 和 OpenImages 數據集中精選圖像,構建了 SOEBench 數據集。
數據集構建標準:
物體尺寸:佔據圖像總面積的 1/8 到 1/6 之間。
物體清晰度:選擇未被其他元素遮擋的物體。
物體類別:涵蓋約 300 種常見物體。
SOEBench 包含兩個子集:
SOE-2k:包含來自 OpenImages 的 2000 個物體。
SOE-4k:包含來自 MSCOCO 的 2000 個物體。
多尺度聯合注意力引導方法
針對小型物體生成中存在的文字與圖像特徵對齊困難的問題,作者提出了一種基於多尺度聯合注意力引導的免訓練方法。
方法核心思想:
局部注意力引導:通過放大目標區域的掩碼,獲取更精確的注意力圖,並將其縮放至原始尺寸,用於指導模型生成更精確的目標物體。
全局注意力引導:通過比較放大前後的注意力圖,抑制背景區域的注意力,避免模型錯誤地修改背景信息。
方法優勢:
免訓練:無需對模型進行額外訓練,即可提升模型在小型物體編輯任務上的性能。
效果顯著:實驗結果表明,該方法能夠有效提升生成圖像的質量和與文字描述的一致性。
實驗結果
作者在 SOEBench 數據集上對所提出的方法進行了評估,並與 Stable Diffusion Inpainting 模型進行了比較。實驗結果表明,該方法在 CLIP-Score 和 FID 指標上均取得了顯著提升。
總結
本論文提出了一種針對小型物體編輯任務的免訓練方法,並構建了一個新的基準數據集 SOEBench。實驗結果表明,該方法能夠有效提升模型在小型物體編輯任務上的性能。
統計資料
SOEBench 數據集包含兩個子集:SOE-2k 和 SOE-4k,分别包含來自 OpenImages 和 MSCOCO 的 2000 個物體。
小型物體的尺寸定義為佔據圖像總面積的 1/8 到 1/6 之間。
在 SOE-2k 數據集上,相較於基準模型,該方法在 FID 指標上提升了近 1 個點。
在 SOE-4k 數據集上,相較於基準模型,該方法在 FID 指標上提升了約 0.7 個點。