核心概念
本文提出了一種名為自我增強提示微調 (SEP) 的新方法,透過將預訓練標記中的知識整合到可學習提示中,來增強視覺語言模型在各種下游任務中的效能。
本文介紹了一種名為自我增強提示微調 (SEP) 的新方法,旨在增強視覺語言模型 (VLM) 在下游任務中的效能。現有的基於上下文優化 (CoOp) 的提示微調方法通常依賴於與輸入無關或受圖像條件限制的可學習標記,這些標記在捕捉特定於輸入的知識(例如,類別感知文本或實例感知視覺知識)方面能力有限。
SEP 的核心原理是利用預訓練標記中包含的辨別性和泛化能力。為此,SEP 在編碼器的每一層將可學習提示標記調整為相應的自我預訓練標記,從而明確地結合辨別性先驗知識來增強文本級和視覺級嵌入。此外,SEP 的自我增強標記不僅提高了辨別力,還減輕了未知領域中的領域轉移,從而增強了泛化能力。
在實踐中,SEP 在文本/視覺編碼器的每一層為每個輸入數據從所有預訓練標記中選擇幾個代表性標記。隨後,引入標記融合模塊 (TFM),使用交叉注意機制將這些代表性標記與可學習標記合併,生成自我增強標記。然後將此自我增強標記與所有預訓練標記連接起來,作為後續編碼器層的輸入,以生成相關的嵌入。
通過對各種基準和任務的全面評估,證實了 SEP 在提示微調方面的有效性。
SEP 的主要貢獻包括:
引入了一種創新的自我增強提示微調機制,該機制將由標記融合模塊 (TFM) 生成的自我增強提示標記整合到視覺/文本編碼器中。
論文指出,將預訓練標記中的先驗辨別性知識注入可學習提示標記可以增強生成嵌入的辨別性和泛化能力。