核心概念
本文提出了一種名為 NeMo 的新型數據增強技術,旨在提升參考圖像分割(RIS)模型的效能。NeMo 透過精心挑選與目標圖像相關但不同的負樣本圖像,並將其組合成馬賽克圖像,增加訓練數據的複雜性和多樣性,從而提升模型對圖像和文本之間細微關係的理解能力,進一步提高其在複雜場景下的分割準確度。
摘要
論文資訊
- 標題:尋找 NeMo:基於負樣本挖掘的馬賽克增強技術應用於參考圖像分割
- 作者:Seongsu Ha, Chaeyun Kim, Donghwa Kim, Junho Lee, Sangho Lee, and Joonseok Lee
研究目標
本研究旨在解決現有參考圖像分割(RIS)模型在處理包含多個相似目標的複雜場景時,分割準確度下降的問題。
方法
- 負樣本挖掘馬賽克增強技術 (NeMo):
- 針對每個訓練圖像,NeMo 利用預先訓練的跨模態模型(如 CLIP)從數據集中檢索與參考文本描述相關的負樣本圖像。
- 為了控制難度,NeMo 採用兩個關鍵參數:
- τ (相似度閾值): 過濾掉與目標圖像過於相似的圖像,避免產生錯誤的負樣本。
- K (候選圖像數量): 從剩餘圖像中選擇 K 個與參考文本最相關的圖像作為候選負樣本。
- NeMo 從 K 個候選圖像中隨機選擇 3 個,與目標圖像組合成 2x2 的馬賽克圖像,並調整圖像大小,用於模型訓練。
主要發現
- NeMo 能夠有效提升多種現有 RIS 模型在不同數據集上的性能,特別是在包含複雜語義和場景的數據集上效果更為顯著。
- NeMo 有助於模型更好地理解圖像中目標的大小、位置和語義信息,從而提高分割的準確性。
結論
NeMo 作為一種簡單而有效的數據增強技術,能夠顯著提升參考圖像分割模型的性能,尤其適用於處理包含多個相似目標的複雜場景。
局限性
- NeMo 在處理包含來自不同領域圖像的數據集時,可能會因為生成不自然的圖像組合而導致性能下降。
未來研究方向
- 開發更精確的目標解析方法,以進一步優化負樣本圖像的檢索過程。
- 探索 NeMo 在其他視覺語言任務中的應用。
統計資料
RefCOCO 和 RefCOCO+ 數據集的平均查詢長度分別為 3.61 和 3.53 個單詞。
G-Ref 數據集的平均查詢長度為 8.43 個單詞。
在 G-Ref UMD 測試集中,100 個簡單樣本和 100 個困難樣本的 mIoU 性能差異顯著。