核心概念
本手法は、中間融合フレームワークと多形式・多段階のビジュアルプロンプトを活用することで、RGB-T追跡の性能と効率性のバランスを最適化する。
摘要
本論文は、ロバストなRGB-T追跡のための新しい手法を提案している。
- 中間融合フレームワークを初めてRGB-T追跡に導入し、性能と効率性のバランスを最適化する。
- 4つの柔軟なプロンプト戦略を提案し、事前学習モデルの知識を効果的に活用する。
- ユニモーダル探索プロンプト戦略: モダリティ独立的な特徴を抽出し、ユニモーダル特徴をモデル化する。
- 中間融合プロンプト戦略: モダリティ間の相互補完的な特徴を適応的に融合する。
- 融合モーダル強化プロンプト戦略: 融合モーダル特徴の表現を強化する。
- モダリティ・ステージ認識プロンプト戦略: モダリティと処理ステージの特徴を明示的に学習する。
- 4つの大規模ベンチマークで最先端の性能を達成し、高速な推論速度も実現する。
統計資料
提案手法は46.1 fpsの高速な推論速度を実現する。
提案手法のパラメータ数は0.88Mと少ない。