核心概念
通過重新定義視覺和語言上下文窗口,以及引入漸進式池化策略,我們提出了一種新的方法來處理長視頻理解任務,無需重新訓練大型多模態模型。
摘要
本文提出了一種新的方法來解決長視頻理解的挑戰。首先,作者觀察到在最新的開源大型多模態模型中,語言解碼器通常支持更長的語言建模,但在視覺理解任務中,隨著序列長度的增加,性能會下降。作者認為這是由於視覺和語言模態之間的差異導致的,即視覺和語言上下文窗口不同。
基於此,作者提出了擴展視覺上下文窗口的方法,將常用的語言位置嵌入擴展方法YaRN應用於大型多模態模型,使其能夠處理長視頻任務,而無需在長視頻數據集上進行重新訓練。
此外,作者還引入了一種漸進式池化策略,通過對視頻幀嵌入進行分組和不同分辨率的池化,有效地減少了長序列帶來的內存消耗,而不會導致性能下降。
在多個長視頻理解基準測試中,作者的方法都能夠隨著視頻幀數的增加而持續提高性能。特別是在MLVU基準測試中,作者的方法甚至超過了GPT-4o,而模型大小只有7B。此外,在256幀的設置下,作者的方法將內存使用量減少了約45%,而不會導致任何性能損失。
統計資料
視頻長度越長,LMM在視覺理解任務上的性能會逐步下降。
在10個128k Proof-pile文檔上,滑動窗口困惑度(S=256)的負值隨著序列長度的增加而提高。