核心概念
本文提出了一種名為時間基礎橋樑 (TGB) 的新型框架,透過高效的多跨度時間基礎演算法和多模態長度外推訓練範例,增強了多模態大型語言模型 (MLLM) 處理長影片的能力,並透過引導框架將其與可插拔的 MLLM 相結合,無需註釋即可實現高效的時間外推。
論文資訊
Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, Yang Liu & Zilong Zheng. (2024). Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge. arXiv. Retrieved from https://arxiv.org/abs/2402.16050v2
研究目標
本研究旨在解決多模態大型語言模型 (MLLM) 在理解長影片時面臨的挑戰,特別是在時間基礎和預先訓練的上下文窗口大小方面的限制。
方法
為了解決這些挑戰,本研究提出了一種名為時間基礎橋樑 (TGB) 的新型框架。TGB 框架透過以下三個關鍵創新顯著增強了當前 MLLM 的時間能力:
**高效的多跨度時間基礎演算法:**應用於從光流投影的低維時間特徵,以有效地定位與語言查詢相關的關鍵幀。
**多模態長度外推訓練範例:**利用低維時間特徵擴展訓練上下文窗口大小,使模型能夠處理比訓練期間看到的序列更長的序列。
**引導框架:**將模型與可插拔的 MLLM 相結合,無需註釋,從而實現高效的時間外推,而無需對影片進行預先訓練。
主要發現
TGB 在七個影片基準測試中得到了驗證,與現有的 MLLM 相比,表現出顯著的性能提升。
該模型最初在四幀的序列上進行訓練,可以有效地處理長達 16 倍的序列,而不會犧牲性能,突出了其在實際應用中的可擴展性和有效性。
主要結論
TGB 框架提供了一種有效且高效的方法來增強 MLLM 的時間推理能力,使其能夠更好地理解和處理長影片。
意義
這項研究對於推進影片理解領域具有重要意義,特別是在需要處理長影片和複雜時間動態的應用中,例如影片問答、影片摘要和影片字幕。
局限性和未來研究方向
**有限的時間基礎能力:**儘管 TGB 優於現有方法,但其時間基礎能力仍然有限。未來的研究可以探索更強大的時間建模技術,以進一步提高性能。
**對其他多模態任務的評估:**本研究主要集中在影片問答任務上。未來的研究可以探索 TGB 框架在其他多模態任務中的應用,例如影片字幕和影片摘要。
統計資料
BLIP2 模型擁有 41 億個參數,在 1.29 億張圖片上進行了預先訓練,但在 AGQA 2.0 測試中僅比小型模型略有改進。
在 AGQA 2.0 數據集中,TGB 將 BLIP2 的準確率提高了 7.45 個百分點。
TGB-BLIP2 在 AGQA 2.0 數據集的「最高級」問題上,準確率從 43.84% 提高到 53.67%,相對提高了 22.42%。
在 NExT-QA 數據集上,TGB 的推理時間比使用 LLM 選擇關鍵幀的當前最先進模型 SeViLa 更快。