核心概念
本論文では、RGB画像ベースの追跡とマルチモーダル追跡のための新しい統一シーケンス学習フレームワークを提案する。このフレームワークは、従来の複雑な頭部ネットワークを必要とせず、単一のエンコーダ-デコーダトランスフォーマーアーキテクチャを使用する。また、様々な補助モダリティを統一的に扱うことができ、単一のモデルとパラメータセットで複数のマルチモーダル追跡タスクを実行できる。
要約
本論文では、視覚オブジェクト追跡のための新しい統一シーケンス学習フレームワークを提案している。
RGB画像ベースの追跡手法SeqTrackを提案する。これは、オブジェクトの境界ボックスを自己回帰的に生成するシーケンス生成タスクとして追跡を定式化する。従来の追跡手法とは異なり、複雑な頭部ネットワークを必要とせず、単純なエンコーダ-デコーダトランスフォーマーアーキテクチャを使用する。
SeqTrackをさらに拡張し、マルチモーダル追跡タスクに対応するSeqTrackv2を提案する。SeqTrackv2は、補助モダリティ(深度、サーマル、イベント、言語)を統一的に扱うためのインターフェースと、タスク指定トークンを導入する。これにより、単一のモデルとパラメータセットで複数のマルチモーダル追跡タスクを実行できる。
14の厳しいベンチマークにわたり、SeqTrackとSeqTrackv2は優れた性能を示す。特に、SeqTrackはSiamRPN、STARK、MixFormerなどの最新の追跡手法を上回る精度を達成し、SeqTrackv2は様々なマルチモーダル追跡タスクで新しい最高性能を達成する。
統計
単一フレームの入力画像サイズは256×256または384×384ピクセルである。
追跡対象のバウンディングボックスは、x、y、w、hの4つの離散トークンで表現される。
追跡対象の位置と大きさの離散化には4,000個のボキャブラリーを使用する。