核心概念
本文提出了一種名為 OrthSR 的新型微調方法,透過正交學習和自我正規化策略,在保持預訓練模型強大泛化能力的同時,有效地將預訓練視覺語言模型(如 CLIP)適配到特定下游任務(如少樣本圖像識別)。
研究目標
本研究旨在解決預訓練視覺語言模型(VLM)在微調至特定下游任務時,如何保持其強大泛化能力的挑戰。具體而言,研究提出了一種名為 OrthSR 的新型微調方法,透過正交學習和自我正規化策略,在不改變模型超球能量的情況下,將預訓練 VLM 適配到特定任務。
方法
OrthSR 方法的核心是將可訓練的正交矩陣注入到 VLM 的 Transformer 架構中,並在訓練過程中施加正交約束。這種方法利用了正交變換的範數保持特性,確保在微調過程中保持一致的超球能量水平,從而實現穩定且快速的收斂。為了減輕訓練過程中與正交約束的偏差,該方法還採用了自我正規化策略,使用初始預訓練權重作為錨點,引導模型保持接近預訓練模型的零樣本泛化流形。此外,研究還探索了注意力 CutOut 數據增強技術,以豐富數據多樣性,增強微調模型在數據高效環境下的任務特定知識。
主要發現
實驗結果表明,OrthSR 方法在多個基準測試中均取得了顯著的性能提升,包括基礎類別到基礎類別/基礎類別到新類別的泛化、跨數據集遷移和域泛化。具體而言,與現有的先進方法相比,OrthSR 在 11 個數據集上的新類別平均準確率提高了 13.3%,在跨數據集設置中提高了 0.95%,在域泛化設置的四個數據集上平均提高了 1.80%。
結論
OrthSR 方法提供了一種新穎且有效的 VLM 微調方法,能夠在保持強大泛化能力的同時,有效地將預訓練模型適配到特定下游任務。該方法的成功歸功於正交學習的範數保持特性和自我正規化策略的約束作用。
意義
本研究對 VLM 的微調方法提出了新的見解,並為開發更穩健、更通用的 VLM 模型提供了有效的解決方案。
局限性和未來研究方向
未來的研究方向包括探索更有效的正交約束方法,以及將 OrthSR 方法應用於其他類型的 VLM 模型。
統計資料
在 11 個數據集上的新類別平均準確率提高了 13.3%。
在跨數據集設置中提高了 0.95%。
在域泛化設置的四個數據集上平均提高了 1.80%。