本文提出了一種名為PDM的新方法,用於利用預訓練的文本到圖像擴散模型的中間特徵來實現個人化的檢索和分割任務。
首先,作者發現擴散模型的中間特徵可以編碼物體的語義和外觀信息。具體來說,自注意力層的查詢和鍵特徵(QSA和KSA)包含物體的紋理和顏色信息,而交叉注意力層的特徵(FS)則反映了物體的語義信息。
基於這些發現,PDM方法結合了語義和外觀特徵來實現個人化的檢索和分割。對於檢索任務,PDM計算參考圖像和目標圖像之間的相似度得分,並根據得分對目標圖像進行排序。對於分割任務,PDM將相似度得分圖上採樣到目標圖像大小,並使用二值化閾值進行分割。
作者還發現現有的個人化檢索和分割基準測試存在局限性,通常只包含單一物體或不同類別的多個物體,這使得基於語義的方法很容易取得高精度。為了更好地評估基於實例的方法,作者基於最近發布的BURST數據集構建了新的基準測試PerMIR和PerMIS,其中包含同一類別的多個實例。
在這些新的基準測試上,PDM顯著優於其他自監督和監督方法,突出了擴散特徵在個人化任務中的優越性。定性結果進一步展示了PDM在處理大尺度變化、遮擋和多實例場景中的優勢。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor