本文提出了一種名為PixelCLIP的新方法,用於在無需語義標籤的情況下實現開放詞彙語義分割。
現有的開放詞彙語義分割方法需要密集的像素級語義標籤,這需要大量的人工標註工作。為了解決這一問題,本文利用無標籤的圖像和掩碼作為監督信號,微調預訓練的視覺語言模型CLIP。
由於從DINO和SAM等視覺基礎模型生成的掩碼通常過於細粒度和不完整,無法直接用於監督CLIP。為此,本文提出了一種全局語義聚類的方法,利用可學習的類別提示來表示每個聚類,並使用在線聚類算法將掩碼分配到這些聚類中。
實驗結果表明,PixelCLIP在開放詞彙語義分割任務上顯著優於CLIP,並且即使不使用任何語義標籤,也能與使用圖像級別語義標籤的方法相媲美。此外,PixelCLIP可以直接應用於現有的利用CLIP作為零shot掩碼分類器的方法,並帶來即時的性能提升。
本文還提供了詳細的消融實驗和分析,驗證了各個組件的重要性,並對學習到的類別提示進行了可視化分析。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania