本文提出了VideoINSTA,一個用於長影片零樣本理解的框架。該框架包含三個主要階段:
基於事件的時間推理:
基於內容的空間推理:
基於自我反思的信息推理:
實驗結果表明,VideoINSTA在長影片理解任務上顯著優於現有的端到端模型和基於LLM的複合系統。該框架還展示了在開放式問答任務上的出色表現,並具有良好的可擴展性。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Ruotong Liao... ב- arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20365.pdfשאלות מעמיקות