本文提出了一種自上而下的影片處理方法,以提升影片問答(VideoQA)任務的性能。
現有的多模態模型(如LLaVA)雖然已經擴展到處理連續影片序列,增強了模型的時間推理能力,但仍然無法捕捉那些可以分解為多個原子動作且非連續分佈在相對較長時間序列中的上下文事件。
為了利用CLIP模型在空間視覺上下文表示方面的優勢,本文提出將長期影片序列轉換為單一網格圖像,然後微調預訓練的LLaVA模型用於VideoQA任務。
實驗結果表明,該方法在STAR任務上取得了競爭性的性能,特別是在NExTQA任務上超越了當前最先進的結果2.8個百分點,達到78.4%的準確率。
通過案例分析和消融實驗,進一步驗證了自上而下的影片處理方法在捕捉上下文事件和原子動作方面的優勢。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania