核心概念
本文提出了一種名為CLIPer的全新分層框架,透過整合CLIP早期層級的嵌入和注意力圖,以及利用Stable Diffusion的注意力圖進行細節補償,有效提升了CLIP在開放詞彙語義分割任務中的空間表示能力。
摘要
論文資訊
標題:CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation
作者:Lin Sun, Jiale Cao, Jin Xie, Xiaoheng Jiang, Yanwei Pang
發表日期:2024年11月21日
研究目標
本研究旨在提升對比語言-圖像預訓練模型(CLIP)在開放詞彙語義分割任務中的表現,特別是針對CLIP圖像級別監督模型在像素級別分割任務中空間表示能力不足的問題。
方法
研究者提出了一種名為CLIPer的全新分層框架,該框架包含兩個主要模塊:
- 早期層級融合模塊: 該模塊整合了CLIP圖像編碼器早期層級的嵌入和注意力圖,以提升輸出嵌入的空間一致性。具體而言,該模塊首先計算所有早期層級注意力圖的平均值,並用其替換最後一層的原始自注意力圖。然後,將所有層級的嵌入輸入到最後一層,生成多個輸出嵌入。最後,計算這些輸出嵌入與文本嵌入之間的餘弦相似度,並取平均值作為粗略分割圖。
- 細節補償模塊: 該模塊利用Stable Diffusion的注意力圖來優化粗略分割圖的局部細節。具體而言,將圖像和空文本提示輸入到Stable Diffusion中,獲取最高空間分辨率下的多頭自注意力圖。然後,通過矩陣鏈乘法融合這些注意力圖,並利用融合後的注意力圖來優化粗略分割圖,最終生成細節更加精確的像素級別分割圖。
主要發現
實驗結果表明,CLIPer在多個語義分割數據集上均取得了優於現有方法的表現。例如,在使用ViT-L骨幹網絡的情況下,CLIPer在VOC和COCO Object數據集上的mIoU分別達到了69.8%和43.3%,顯著優於現有的基於CLIP的開放詞彙語義分割方法。
主要結論
CLIPer通過分層提升CLIP的空間表示能力,有效地解決了CLIP在開放詞彙語義分割任務中的局限性,為該領域的研究提供了一種新的思路。
優點
- 無需訓練即可直接應用於開放詞彙語義分割任務。
- 分層框架設計有效提升了CLIP的空間表示能力。
- 在多個數據集上均取得了優於現有方法的表現。
局限性
- 對於微小物體的分割效果還有待提升。
- 推理速度相對較慢。
未來研究方向
- 研究如何將CLIPer應用於更高分辨率的圖像。
- 探索更快速、更輕量級的細節補償方法。
統計資料
使用 ViT-L 骨幹網絡時,CLIPer 在 VOC 數據集上的 mIoU 達到 69.8%,在 COCO Object 數據集上的 mIoU 達到 43.3%。
在 VOC 數據集上,CLIPer* 的推理速度為 47 毫秒,而 CLIPer 的推理速度為 192 毫秒。
與其他基於 CLIP 的方法相比,CLIPer 在所有數據集上的圖像級別分類指標(mAP、F1、P 和 R)均取得了最佳結果。
引述
"The key is to improve spatial representation of image-level CLIP, such as replacing self-attention map at last layer with self-self attention map or vision foundation model based attention map."
"We observe that, the embeddings and attention maps at early layers can preserve spatial structural information."
"We utilize the embeddings and self-attention maps at early layers to fully exploit spatial information within CLIP. Subsequently, we perform fine-grained compensation using diffusion model to further improve local details."