核心概念
本文提出了一種名為「遊程長度分詞法」(RLT)的新方法,透過移除影片中隨時間重複出現的冗餘區塊來減少輸入標記數量,從而加速影片 Transformer 模型的訓練和推論速度。
文獻資訊: Choudhury, R., Zhu, G., Liu, S., Niinuma, K., Kitani, K. M., & Jeni, L. A. (2024). Don't Look Twice: Faster Video Transformers with Run-Length Tokenization. Advances in Neural Information Processing Systems, 38.
研究目標: 本研究旨在解決影片 Transformer 模型訓練速度緩慢的問題,特別是針對影片中存在大量冗餘資訊的情況。
方法: 本文提出了一種名為「遊程長度分詞法」(RLT)的新方法,其靈感來自於資料壓縮中的遊程長度編碼。RLT 會在模型推論之前,有效地識別並移除隨時間重複出現的圖像區塊(patches),並以單一區塊和位置編碼來表示新的標記長度。
主要發現: 實驗結果顯示,RLT 能夠在保持基準模型效能的同時,顯著縮短訓練時間。具體來說,RLT 可以將微調影片 Transformer 模型所需的實際時間縮短 30%。此外,RLT 還可以在無需任何訓練的情況下提高模型的處理量,在準確率僅下降 0.1% 的情況下,將處理量提高了 35%。在每秒 30 幀的影片上,RLT 可以將訓練速度提高 100% 以上;而在較長的影片數據集上,RLT 可以將標記數量減少高達 80%。
主要結論: RLT 是一種簡單有效的方法,可以顯著加速影片 Transformer 模型的訓練和推論速度。其內容感知的特性使其能夠在不影響模型效能的情況下,有效地減少輸入標記的數量。
意義: 本研究對於推動影片理解領域的發展具有重要意義。RLT 的提出為加速影片 Transformer 模型的訓練和推論提供了一種新的思路,有助於開發更強大、更高效的影片理解模型。
限制與未來研究方向: RLT 方法目前主要針對時間上的冗餘資訊進行壓縮,未來可以進一步探討如何處理空間上的冗餘資訊。此外,RLT 方法中使用的差異閾值 τ 是一個需要根據具體應用場景進行調整的超參數,未來可以探討如何自動學習最佳的閾值。
統計資料
RLT 可以將微調影片 Transformer 模型所需的實際時間縮短 30%。
RLT 可以在準確率僅下降 0.1% 的情況下,將模型處理量提高 35%。
在每秒 30 幀的影片上,RLT 可以將訓練速度提高 100% 以上。
在較長的影片數據集上,RLT 可以將標記數量減少高達 80%。