本文提出了VideoINSTA,一個用於長影片零樣本理解的框架。該框架包含三個主要階段:
基於事件的時間推理:
基於內容的空間推理:
基於自我反思的信息推理:
實驗結果表明,VideoINSTA在長影片理解任務上顯著優於現有的端到端模型和基於LLM的複合系統。該框架還展示了在開放式問答任務上的出色表現,並具有良好的可擴展性。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ruotong Liao... о arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20365.pdfГлибші Запити