本論文は、長編ビデオの理解を向上させるための新しいアプローチを提案している。
まず、長編ビデオ内の複数のイベントを適応的に分割する手法を提案する。これにより、各イベントを個別に処理し、情報の冗長性を削減することができる。
次に、各イベントに対してローカルメモリを用いてイベント内の時間的な関係をモデル化する。さらに、グローバルメモリを用いて前のイベントの情報を圧縮・注入することで、イベント間の長期的な依存関係を強化する。
最後に、様々なビデオ理解タスクで実験を行い、提案手法の有効性を示している。特に長編ビデオにおいて、従来手法よりも優れた性能を発揮することが確認された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Dingxin Chen... kl. arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06299.pdfDybere Forespørgsler