核心概念
本文提出了一個名為VideoINSTA的框架,利用大型語言模型進行信息性的空間-時間推理,以實現長影片的零樣本理解。
摘要
本文提出了VideoINSTA,一個用於長影片零樣本理解的框架。該框架包含三個主要階段:
-
基於事件的時間推理:
- 提出了一種名為C-DPCKNN的自動時間分割方法,可以清晰地分割長影片中的事件片段。
- 利用UniVTG模型提取全局時間相關性,並將其繼承到自動分割的事件片段中,作為局部時間信息。
-
基於內容的空間推理:
- 利用視覺-語言模型生成每個事件片段的動作描述和物體檢測,作為空間信息。
- 根據查詢對空間信息進行總結,作為隱式的空間推理。
-
基於自我反思的信息推理:
- 提出一種自我反思的信息推理方案,LLM根據信息充分性和預測置信度來迭代地合併和推理空間-時間信息。
實驗結果表明,VideoINSTA在長影片理解任務上顯著優於現有的端到端模型和基於LLM的複合系統。該框架還展示了在開放式問答任務上的出色表現,並具有良好的可擴展性。
統計資料
即使在長影片中,事件分割的密度峰值也能清晰地捕捉到場景轉換的關鍵時刻。
包含物體和動作的空間信息比單純的視頻描述更有助於準確推理。
引述
"VideoINSTA是一個用於長影片零樣本理解的框架,利用大型語言模型進行信息性的空間-時間推理。"
"我們提出了一種自我反思的信息推理方案,LLM根據信息充分性和預測置信度來迭代地合併和推理空間-時間信息。"