核心概念
本文提出了DetailCLIP,一個針對CLIP及其變體在細粒度任務(如分割)中的局限性而設計的新框架。DetailCLIP通過注意力機制選擇性保留語義相關的圖像區域,並結合自蒸餾和像素重建損失,有效地捕捉高層次語義和細節視覺特徵,在細粒度任務中表現優異。
摘要
本文提出了一個名為DetailCLIP的新框架,旨在解決CLIP及其變體在細粒度任務(如分割)中的局限性。
注意力機制選擇性保留語義相關的圖像區域:
通過教師模型生成的注意力值,有選擇性地保留最重要的圖像patch,使模型能夠專注於最相關的區域。
自蒸餾和像素重建損失:
自蒸餾策略讓模型同時作為學生和教師,學生模型通過重建被遮蔽的區域來學習,教師模型則處理原始圖像,以提高模型對細節特徵的學習。
像素重建損失確保模型能夠精確地重建被遮蔽的區域,增強對細節的捕捉。
文本語義引導:
利用文本信息增強模型對圖像關鍵區域的理解,提高在細粒度任務中的性能。
實驗結果表明,DetailCLIP在分割和物體檢測等需要高精度的任務上顯著優於其他CLIP系列和自監督學習模型,同時在零shot分類等粗粒度任務上也表現出色。
統計資料
在ADE20K數據集上使用UperNet分割器,DetailCLIP的mIoU達到48.8,優於其他模型。
在COCO數據集上的物體檢測任務中,DetailCLIP的AP b和AP m分別達到48.9和42.5,優於其他模型。