核心概念
針對現有視訊問答資料集在規模和粒度方面的限制,本文提出了 VideoEspresso,這是一個透過自動化流程建構的高品質、大規模視訊問答資料集,旨在提升大型視覺語言模型在複雜視訊推理任務上的效能。
統計資料
VideoEspresso 資料集包含 14 個預定義任務,涵蓋時間、邏輯、場景、行為和狀態等多個方面。
與 MVBench 的問答內容相比,VideoEspresso 的答案集平均長度更長,分佈更為多樣化。
在相同的視訊輸入下,與 LLaVA-Next-interleave 相比,我們的方法將輸入影格數減少了約 82%,FLOPs 降低了約 85%。
在主觀評估中,我們的方法在簡潔性評估中超過了 GPT-4o 5%。
與統一採樣方法相比,我們提出的核心影格選擇顯著提高了視訊理解能力。
將選擇器應用於其他 LVLMs 後,影格輸入量減少了約 15%。
LongVA 的影格輸入量減少了 98%。
引述
"To address these challenges, we propose a novel automatic VideoQA construction method and introduce a new dataset, VideoEspresso."
"By preserving important spatial details with temporal coherence, we create a fine-grained reasoning-enabled VideoQA dataset that fosters more effective multimodal understanding."
"To fully leverage the potential of the high-quality VideoQA pairs in our proposed VideoEspresso, we introduce a novel framework, Hybrid LVLMs Collaboration for VideoQA, achieving cost-effective and accurate video LVLM reasoning."