核心概念
本文提出了一種名為 ESC-Net 的新型單階段開放詞彙語義分割模型,該模型利用預先訓練的 SAM 解碼器區塊和從圖像-文本關聯性生成的偽提示,在高效的推理框架內實現了類別無關的分割,並在 ADE20K、PASCAL-VOC 和 PASCAL-Context 等標準基準測試中實現了優於先前方法的效率和準確性。
摘要
論文資訊
標題:一種用於開放詞彙語義分割的高效 SAM 組合方法
作者:Minhyeok Lee, Suhwan Cho, Jungho Lee, Sunghun Yang, Heeseung Choi, Ig-Jae Kim, Sangyoun Lee
機構:延世大學、韓國科學技術院
發表日期:2024 年 11 月 22 日
研究目標
本研究旨在解決現有開放詞彙語義分割方法中存在的計算成本高、記憶體效率低下以及 CLIP 模型空間定位能力不足等問題,提出一種高效且準確的單階段開放詞彙語義分割模型。
方法
本研究提出了一種名為 ESC-Net 的新型單階段開放詞彙語義分割模型,該模型主要由 CLIP 視覺和語言編碼器、多個連續的 ESCBlock 以及一個解碼器組成。
ESC-Net 的核心在於結合了基於關聯性的偽提示和 SAM 區塊,具體步驟如下:
- 利用 CLIP 模型提取圖像和文本特徵,並計算兩者之間的關聯性,生成圖像-文本關聯性映射圖。
- 通過偽提示生成器 (PPG) 從關聯性映射圖中生成偽點坐標和目標掩碼,作為 SAM 區塊的輸入提示。
- 利用預先訓練的 SAM 變換器區塊對圖像特徵進行聚合,增強其空間上下文資訊。
- 設計視覺-語言融合 (VLF) 模組,對經過 SAM 區塊優化的圖像特徵和文本特徵進行交互建模,進一步優化關聯性映射圖。
- 最後,使用簡單的上採樣層生成最終的預測分割圖。
主要發現
- ESC-Net 在 ADE20K、PASCAL-VOC 和 PASCAL-Context 等標準開放詞彙語義分割基準數據集上均取得了優於先前方法的效能。
- 與現有的基於關聯性的單階段方法 CAT-Seg 相比,ESC-Net 在保持相似計算成本的同時,實現了更好的效能。
- 消融實驗證明,ESC-Net 在各種挑戰性場景下均具有穩健的效能。
主要結論
ESC-Net 是一種高效且準確的單階段開放詞彙語義分割模型,其通過結合 SAM 和 CLIP 的優勢,有效解決了現有方法中存在的問題,為開放詞彙語義分割任務提供了一種新的解決方案。
局限性
- ESC-Net 雖然利用 SAM 區塊進行空間聚合,但其在低解析度特徵級別上運行,限制了掩碼解析度,影響了分割邊界的精度。
- 與其他基於關聯性的方法類似,ESC-Net 的記憶體需求會隨著類別數量的增加而增加,這可能會降低模型的效率,尤其是在處理大量類別時。
未來研究方向
- 研究更高效的空間聚合方法,以提高分割邊界的精度。
- 探索更輕量級的模型結構,以降低模型的記憶體需求,提高模型在處理大量類別時的效率。
統計資料
COCO-Stuff 訓練集包含大約 118k 張圖像,涵蓋 171 個語義類別。
ADE20K 數據集包含 20,000 張訓練圖像和 2,000 張驗證圖像,包含 A-150(150 個常見類別)和 A-847(847 個類別)兩個測試集。
PASCAL-VOC 數據集包含大約 1,500 張訓練圖像和 1,500 張驗證圖像,涵蓋 20 個目標類別。
PASCAL-Context 數據集包含 PC-59(59 個類別)和 PC-459(459 個類別)兩個測試集。
ESC-Net 在 A-847 數據集上的 mIoU 提升了 2.1,在 PC-459 數據集上的 mIoU 提升了 3.2。