核心概念
針對基於 Transformer 的模型處理長影片時遇到的計算效率問題,本文提出了一種基於視頻圖像顯著性進行動態合併的學習型視頻圖像合併(VTM)演算法,並通過實驗證明了其在保持甚至提升模型性能的同時,顯著降低了記憶體成本並提高了處理速度。
摘要
為理解長影片而設計的視頻圖像合併技術
研究背景
近年來,Transformer 模型在自然語言處理和電腦視覺領域取得了顯著的成果,然而其密集的自注意力計算機制也帶來了巨大的計算成本,尤其是在處理長影片數據時。為了解決這一問題,現有的研究主要集中在改進注意力機制或採用圖像圖像選擇策略,但這些方法存在著無法充分利用長影片時空信息或丟失重要信息的缺陷。
研究內容
本文提出了一種基於視頻圖像顯著性進行動態合併的學習型視頻圖像合併(VTM)演算法,旨在提高 Transformer 模型處理長影片數據的效率。
視頻圖像合併方法探索
- 初始視頻圖像合併: 將標準圖像圖像合併方法直接應用於視頻圖像,通過合併相似的圖像來減少冗餘信息。
- 區域集中式視頻圖像合併: 根據視頻圖像內容的顯著性區域進行圖像合併,例如中心區域集中式合併和邊緣區域集中式合併。
- 基於運動的視頻圖像合併: 根據視頻圖像中物體的運動信息進行圖像合併,認為運動物體攜帶更重要的信息。
可學習的視頻圖像合併
為進一步提高圖像合併的靈活性,本文提出了一種可學習的視頻圖像合併方法,該方法通過估計每個圖像的顯著性分數,自適應地選擇目標圖像並進行合併。
實驗結果
在 LVU、Breakfast 和 COIN 等多個長影片數據集上的實驗結果表明,與傳統方法相比,本文提出的可學習視頻圖像合併演算法在保持甚至提升模型性能的同時,顯著降低了記憶體成本並提高了處理速度。
主要貢獻
- 本文探索了多種視頻圖像合併方法,包括初始 VTM、區域集中式 VTM 和基於運動的 VTM。
- 本文提出了一種可學習的視頻圖像合併演算法,該演算法可以估計每個圖像的顯著性分數,並根據其分數自適應地合併視頻圖像。
- 本文提出的演算法在 LVU、Breakfast 和 COIN 等多個數據集上取得了最佳或具有競爭力的結果。此外,與基準演算法相比,本文提出的可學習 VTM 將記憶體成本顯著降低了 84%,並將處理速度提高了約 6.89 倍。
統計資料
與基準演算法相比,本文提出的可學習 VTM 將記憶體成本顯著降低了 84%,並將處理速度提高了約 6.89 倍。
在 γ = 10 時,與基準模型相比,本文提出的演算法將處理速度和記憶體效率分別提高了 7.49 倍和 6.6 倍。
在 Breakfast 數據集上,本文提出的可學習 VTM 的準確率比 D-sprv 高出 1.36%。
引述
"Rather than relying solely on similarity, we question whether more unmerged tokens should be used to describe salient areas, while merging more tokens for the background."
"Experimental results demonstrate that the proposed algorithm improves the effectiveness and the efficiency of the transformer-based network and outperforms the conventional long-video understanding methods with better throughput and less memory usage."