核心概念
本文提出了一種新的方法PixelCLIP,利用無標籤圖像和掩碼來微調預訓練的視覺語言模型,實現開放詞彙語義分割。為了解決利用無標籤掩碼作為監督信號的挑戰,我們提出了一種全局語義聚類的方法,並使用可學習的類別提示來表示每個聚類。
摘要
本文提出了一種名為PixelCLIP的新方法,用於在無需語義標籤的情況下實現開放詞彙語義分割。
現有的開放詞彙語義分割方法需要密集的像素級語義標籤,這需要大量的人工標註工作。為了解決這一問題,本文利用無標籤的圖像和掩碼作為監督信號,微調預訓練的視覺語言模型CLIP。
由於從DINO和SAM等視覺基礎模型生成的掩碼通常過於細粒度和不完整,無法直接用於監督CLIP。為此,本文提出了一種全局語義聚類的方法,利用可學習的類別提示來表示每個聚類,並使用在線聚類算法將掩碼分配到這些聚類中。
實驗結果表明,PixelCLIP在開放詞彙語義分割任務上顯著優於CLIP,並且即使不使用任何語義標籤,也能與使用圖像級別語義標籤的方法相媲美。此外,PixelCLIP可以直接應用於現有的利用CLIP作為零shot掩碼分類器的方法,並帶來即時的性能提升。
本文還提供了詳細的消融實驗和分析,驗證了各個組件的重要性,並對學習到的類別提示進行了可視化分析。
統計資料
我們的方法在COCO-Stuff數據集上的平均IoU提高了16.2個百分點。
即使不使用任何語義標籤,我們的方法也能與使用圖像級別語義標籤的方法相媲美。
我們的方法可以直接應用於現有的利用CLIP作為零shot掩碼分類器的方法,並帶來即時的性能提升。
引述
"本文提出了一種新的方法PixelCLIP,利用無標籤圖像和掩碼來微調預訓練的視覺語言模型,實現開放詞彙語義分割。"
"為了解決利用無標籤掩碼作為監督信號的挑戰,我們提出了一種全局語義聚類的方法,並使用可學習的類別提示來表示每個聚類。"
"實驗結果表明,PixelCLIP在開放詞彙語義分割任務上顯著優於CLIP,並且即使不使用任何語義標籤,也能與使用圖像級別語義標籤的方法相媲美。"