本文提出了一種新的方法來解決長視頻理解的挑戰。首先,作者觀察到在最新的開源大型多模態模型中,語言解碼器通常支持更長的語言建模,但在視覺理解任務中,隨著序列長度的增加,性能會下降。作者認為這是由於視覺和語言模態之間的差異導致的,即視覺和語言上下文窗口不同。
基於此,作者提出了擴展視覺上下文窗口的方法,將常用的語言位置嵌入擴展方法YaRN應用於大型多模態模型,使其能夠處理長視頻任務,而無需在長視頻數據集上進行重新訓練。
此外,作者還引入了一種漸進式池化策略,通過對視頻幀嵌入進行分組和不同分辨率的池化,有效地減少了長序列帶來的內存消耗,而不會導致性能下降。
在多個長視頻理解基準測試中,作者的方法都能夠隨著視頻幀數的增加而持續提高性能。特別是在MLVU基準測試中,作者的方法甚至超過了GPT-4o,而模型大小只有7B。此外,在256幀的設置下,作者的方法將內存使用量減少了約45%,而不會導致任何性能損失。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hongchen Wei... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20018.pdfDybere Forespørgsler