本文提出了一種名為「視頻情境學習的自發性學習」(EILeV)的新訓練範式,旨在培養視覺語言模型(VLM)在視頻和文本上的情境學習能力。EILeV利用Ego4D數據集中的註釋,實現了三種被發現有助於促進transformer模型情境學習的關鍵分布特性:突發分布、偏斜邊際分布和動態含義。
通過系統的實驗,作者發現EILeV訓練的模型在適應罕見動作和分佈不同的動作方面,明顯優於現有的開源VLM。作者還通過消融實驗,證實了這三種分布特性確實對VLM的情境學習能力產生重要影響,其中突發分布和偏斜邊際分布的影響尤為顯著。
此外,作者的分析還揭示了一些有趣的現象,例如減少訓練數據分布的偏斜性可以提高模型的「權重內學習」能力,但會降低其「情境學習」能力。動態含義則對模型在語義相似度指標上的表現有較大影響。
總的來說,本文為如何優化VLM的情境學習能力提供了有價值的洞見,並釋出了經過EILeV訓練的模型供未來研究使用。
翻譯成其他語言
從原文內容
arxiv.org
深入探究