Core Concepts
動画内のオブジェクトを検出、トラッキング、キャプショニングする新しいタスクを提案し、分離監視に基づく学習手法を示す。
Abstract
本研究は、動画内のオブジェクトを検出、トラッキング、自然言語でキャプショニングする新しいタスク「密接な動画オブジェクトキャプショニング」を提案している。従来のオブジェクト検出、トラッキング、キャプショニングの各タスクを統合したものであり、空間、時間、言語の理解を必要とする。
提案手法では、オブジェクト提案、トラッキング、キャプショニングの各モジュールを端末的に学習する。各モジュールは異なるデータセットで事前学習することで、完全な教師データがなくても学習できる。事前学習したモジュールを組み合わせることで、ゼロショット学習が可能となる。
また、トラッキングモジュールを端末的に学習し、キャプショニングモジュールと統合することで、時系列的に整合性のあるキャプションを生成できる。
実験では、既存の動画グラウンディングデータセットを本タスクに適用し、提案手法が強力なベースラインを大きく上回ることを示している。さらに、提案手法をグラウンディングタスクに適用しても、従来手法を上回る性能を達成している。
Stats
オブジェクト検出データセットCOCOには118,000件の画像が含まれる。
オブジェクトキャプショニングデータセットVisual Genomeには70,000件の画像が含まれる。
動画キャプショニングデータセットSMiTには480,000件の動画が含まれる。
動画オブジェクトトラッキングデータセットAug-COCOには118,000件の動画が含まれる。