核心概念
本文提出了一種新的上下文感知多模態預訓練方法 (LIxP),通過在訓練過程中加入基於交叉注意力的上下文資訊,顯著提升了模型在小樣本學習中的適應能力,同時保持了零樣本遷移的性能。
本研究論文題為「基於上下文的預訓練」,探討了大規模多模態表徵學習在優化零樣本遷移方面的成功,但同時也指出了標準預訓練範式(基於大量圖文數據的對比學習)在支持小樣本適應方面的不足。
為解決此問題,作者提出了一種簡單但精心設計的多模態預訓練擴展方法,稱為 LIxP(語言-圖像上下文預訓練)。LIxP 在訓練過程中使用基於交叉注意力的上下文資訊來增強標準的語言-圖像對比目標,從而使模型能夠更好地適應小樣本學習。
通過在 21 個下游任務上的實驗,作者證明了 LIxP 的有效性。實驗結果顯示,LIxP 在測試時樣本效率方面提高了四倍,平均小樣本適應能力提升了 5% 以上,同時在不同模型規模和訓練時間下都保持了零樣本泛化性能。
具體而言,LIxP 只需配備簡單、無需訓練、基於度量的適應機制,就能輕鬆超越更複雜、成本更高的基於優化的方案,從而大大簡化了模型在新領域的泛化能力。
研究貢獻
提出一種新的上下文感知多模態預訓練方法 LIxP。
在 21 個下游任務上進行了廣泛的實驗,證明了 LIxP 的有效性。
證明了 LIxP 能顯著提升模型在小樣本學習中的適應能力,同時保持零樣本遷移的性能。
發現 LIxP 可以通過簡單、無需訓練、基於度量的適應機制實現高效的小樣本適應。
研究意義
本研究對於多模態表徵學習領域具有重要意義,特別是在需要小樣本適應的應用場景中。LIxP 提供了一種簡單而有效的方法,可以顯著提升模型在新領域的泛化能力,同時保持了零樣本遷移的性能。
局限性和未來研究方向
本研究主要關注於圖像分類任務,未來可以探索 LIxP 在其他多模態任務(如圖像描述生成、視覺問答等)中的應用。此外,還可以進一步研究 LIxP 與其他小樣本學習方法的結合,以進一步提升模型的性能。
統計資料
在 21 個下游任務中,LIxP 的樣本效率提高了四倍。
LIxP 的平均小樣本適應能力提升了 5% 以上。
在 ImageNet-Sketch 數據集上,LIxP 的性能提升了 16.2%。