toplogo
サインイン

統一シーケンス学習による単一モーダルおよび多モーダルの視覚オブジェクト追跡


核心概念
本論文では、RGB画像ベースの追跡とマルチモーダル追跡のための新しい統一シーケンス学習フレームワークを提案する。このフレームワークは、従来の複雑な頭部ネットワークを必要とせず、単一のエンコーダ-デコーダトランスフォーマーアーキテクチャを使用する。また、様々な補助モダリティを統一的に扱うことができ、単一のモデルとパラメータセットで複数のマルチモーダル追跡タスクを実行できる。
要約
本論文では、視覚オブジェクト追跡のための新しい統一シーケンス学習フレームワークを提案している。 RGB画像ベースの追跡手法SeqTrackを提案する。これは、オブジェクトの境界ボックスを自己回帰的に生成するシーケンス生成タスクとして追跡を定式化する。従来の追跡手法とは異なり、複雑な頭部ネットワークを必要とせず、単純なエンコーダ-デコーダトランスフォーマーアーキテクチャを使用する。 SeqTrackをさらに拡張し、マルチモーダル追跡タスクに対応するSeqTrackv2を提案する。SeqTrackv2は、補助モダリティ(深度、サーマル、イベント、言語)を統一的に扱うためのインターフェースと、タスク指定トークンを導入する。これにより、単一のモデルとパラメータセットで複数のマルチモーダル追跡タスクを実行できる。 14の厳しいベンチマークにわたり、SeqTrackとSeqTrackv2は優れた性能を示す。特に、SeqTrackはSiamRPN、STARK、MixFormerなどの最新の追跡手法を上回る精度を達成し、SeqTrackv2は様々なマルチモーダル追跡タスクで新しい最高性能を達成する。
統計
単一フレームの入力画像サイズは256×256または384×384ピクセルである。 追跡対象のバウンディングボックスは、x、y、w、hの4つの離散トークンで表現される。 追跡対象の位置と大きさの離散化には4,000個のボキャブラリーを使用する。
引用
なし

深掘り質問

追跡対象の外観変化に対するロバスト性をさらに向上させるためのアプローチはあるか。

SeqTrackのアプローチは、オンラインテンプレート更新とウィンドウペナルティという2つの手法を組み合わせて、追跡対象の外観変化に対するロバスト性を向上させることができます。オンラインテンプレート更新では、追跡中に動的なテンプレートを使用して、ターゲットオブジェクトの外観変化を捉えます。信頼性の高い動的テンプレートを自動的に選択するために、生成されたトークンの確率を使用します。ウィンドウペナルティでは、前のフレームでのターゲットオブジェクトの位置を現在の検索領域の中心点として扱い、中心点の離れ具合に応じて異なるペナルティを課します。これにより、大きな変位を抑制することができます。

本手法をオクルージョンや複雑な背景に対してどのように改善できるか。

SeqTrackは、オンラインテンプレート更新やウィンドウペナルティなどの手法を使用して、オクルージョンや複雑な背景に対処することができます。オンラインテンプレート更新により、追跡中にターゲットオブジェクトの外観変化を捉えることができます。また、ウィンドウペナルティは、大きな変位を抑制するために導入されており、追跡の精度を向上させるのに役立ちます。これらの手法を組み合わせることで、オクルージョンや複雑な背景に対してよりロバストな追跡を実現することができます。

本手法の統一的なアプローチは、他のビジョンタスク(検出、セグメンテーションなど)にも応用できるか。

SeqTrackの統一的なアプローチは、他のビジョンタスクにも応用可能です。例えば、検出やセグメンテーションなどのタスクにおいても、同様のシーケンスモデリング手法を適用することができます。各タスクに対応するタスクプロンプトトークンを導入することで、モデルを特定のタスクに適応させることができます。この統一的なアプローチは、異なるビジョンタスクにおいても効果的な結果をもたらす可能性があります。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star