核心概念
預訓練視覺語言模型 (VLFM) 在面對跨域問題時表現不佳,本文提出了一種名為 UMFC 的無監督多域特徵校準方法,通過校準圖像和文本特徵來減輕模型偏差,提升 VLFM 在下游任務中的遷移能力。
本文介紹了一種名為 UMFC 的無監督多域特徵校準方法,旨在解決預訓練視覺語言模型 (VLFM) 在面對跨域問題時表現不佳的問題。
研究背景
近年來,VLFM,如 CLIP、BLIP、Flamingo 和 ALIGN,在各種下游任務中展現出卓越的性能。然而,儘管 VLFM 接受了大量數據的訓練,但在面對下游任務中出現的新變化時,它們仍然可能遇到困難。為了解決預訓練和下游域之間的分佈偏移問題,一種自然的方法是在各種目標任務上微調 VLFM,例如提示工程和適配器學習。然而,這些方法通常需要標記樣本進行微調,這在現實中成本高昂且難以滿足。相比之下,下游任務通常可以獲得豐富的未標記數據。值得注意的是,在實際場景中,未標記數據通常包含多個域,這加劇了 VLFM 的適應難度。
研究目標
本文旨在利用自然跨越多個域的未標記數據來增強 VLFM 的遷移能力。
研究方法
在這種無監督的多域設置下,我們發現 CLIP 中存在固有的模型偏差,特別是在其視覺和文本編碼器中。具體來說,我們觀察到 CLIP 的視覺編碼器傾向於優先編碼域信息而不是區分類別信息,而其文本編碼器則表現出對域相關類別的偏好。為了減輕這種模型偏差,我們提出了一種無需訓練和標籤的特徵校準方法,即無監督多域特徵校準 (UMFC)。UMFC 從特定域的特徵中估計圖像級偏差,並從域轉換的方向估計文本級偏差。然後,分別從原始圖像和文本特徵中減去這些偏差,以使其與域無關。
實驗結果
我們在包括遷移學習和測試時適應在內的多種設置下評估了我們的方法。大量實驗表明,我們的方法優於 CLIP,並且與需要額外註釋或優化的最先進方法性能相當。
研究結論
UMFC 為分類提供了一種低成本的解決方案,釋放了類似 CLIP 的模型在以跨多個域的豐富圖像但標籤稀缺為特徵的實際場景中的潛力。
統計資料
在 DomainNet 數據集上,CLIP 在真實圖像域上的準確率達到 83.0%,但在快速繪畫域上的準確率僅為 14.2%。
在“快速繪畫”域中,大約 30% 的樣本被 CLIP 分類為“塗鴉”或“線條”類別。
在“繪畫”域中,CLIP 偏向於“顏料罐”和“畫筆”等與繪畫概念高度相關的類別。