核心概念
統合メモリ機構を活用したVideoAgentは、長いビデオの理解において優れたパフォーマンスを示しました。
統計資料
長期的なビデオ理解におけるVideoAgentのパフォーマンスは、NExT-QAでは平均70.8%で最も強力です。
EgoSchema 500サブセットでは、VideoAgentは他の方法よりも優れた性能を発揮しました(R1@0.5:17.39%)。
Ego4D NLQバリデーションセットでは、LaViLa+ViCLIPバージョンでR1@0.3:22.53%という良好な結果が得られました。
引述
"Without such representation, the reasoning has to be either implicit or quite limited by the available tools."
"Unified memory facilitates stronger reasoning in complex video tasks."
"Object memory boosts temporal and causal question understanding significantly."