本論文では、RGB画像ベースの追跡とマルチモーダル追跡のための新しい統一シーケンス学習フレームワークを提案する。このフレームワークは、従来の複雑な頭部ネットワークを必要とせず、単一のエンコーダ-デコーダトランスフォーマーアーキテクチャを使用する。また、様々な補助モダリティを統一的に扱うことができ、単一のモデルとパラメータセットで複数のマルチモーダル追跡タスクを実行できる。