แนวคิดหลัก
本稿では、ビデオ内のオブジェクト中心表現の時間的一貫性を向上させる手法CA-SAを提案する。CA-SAは、前のタイムステップの表現に基づいて現在のタイムステップの表現を予測する自己回帰ネットワークと、連続するフレーム間の特徴-スロットアテンションマップ間の一貫性損失という2つの要素から構成される。これにより、ビデオ予測やVQAなどのダウンストリームタスクにおいて、従来手法を上回る性能を達成した。
Meo, C., Nakano, A., Lic˘a, M., Didolkar, A., Suzuki, M., Goyal, A., Zhang, M., Dauwels, J., Matsuo, Y., & Bengio, Y. (2024). Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases. NeurIPS 2024 Workshop on Compositional Learning: Perspectives, Methods, and Paths Forward. arXiv:2410.15728v1 [cs.CV].
本研究は、ビデオにおけるオブジェクト中心表現の課題である、時間的な一貫性の欠如に対処することを目的とする。具体的には、連続するフレーム間でオブジェクトとスロットの対応関係が変化するという問題を解決し、より時間的に安定したオブジェクト中心表現を獲得することを目指す。