本論文提出了一種基於 LSTM-CrossRWKV (LCR) 的視頻動作識別新方法,旨在解決現有視頻理解方法(如 CNN 和 Transformer)中計算成本高和長距離依賴性問題。
現有的視頻動作識別方法主要依賴於 3D-CNN 或基於 Transformer 的架構,這些方法通過局部卷積或長距離注意力機制來提取時空特徵。然而,這些方法需要大量的計算資源,限制了它們的可擴展性和實際部署。
為了克服這些限制,本文提出了 LCR 模型,該模型結合了 LSTM 和 Cross RWKV 的優勢。LCR 使用 LSTM 來捕捉長序列信息,並引入了一種新穎的 Cross RWKV 門,將過去的時態信息與當前幀的邊緣信息融合在一起,從而實現了對動態時空上下文的線性複雜度建模。
本文在 Kinetics-400、Something-Something V2 和 Jester 三個公開基準數據集上評估了 LCR 模型的性能。實驗結果表明,LCR 在視頻動作識別任務上取得了優異的性能,並且在計算效率方面優於現有方法。
本論文的主要貢獻如下:
由於使用了經典的 LSTM 結構,該模型的并行計算能力不如 CNN 和 Transformer,並且存在梯度消失和梯度爆炸的問題。未來將探索如何將該模型擴展到更大的網絡模型,並將其應用於視頻預測和視頻生成等任務。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Zhuowen Yin,... ที่ arxiv.org 11-11-2024
https://arxiv.org/pdf/2411.05636.pdfสอบถามเพิ่มเติม