Core Concepts
複雑なターゲット外観変化を捉えるための空間時間情報の効果的な学習手法を提案する。
Abstract
視覚オブジェクトトラッキング(VOT)は、動画シーケンス内の任意のターゲットの位置と形状を推定する基本的なタスクである。
主流の追跡アルゴリズムは、静的外観(初期テンプレート)に基づいてターゲットを効果的に区別することが困難である。
提案されたAQATrackは、単純な自己回帰クエリを採用して、手作りコンポーネントなしで空間時間情報を効果的に学習する適応トラッカーである。
AQATrackは、静的外観と瞬時変化を組み合わせてロバストな追跡を導くために設計された空間時間情報融合モジュール(STM)によって目標物体を特定する。
1. Introduction
VOTは、ロボットビジョン、ビデオ監視、自律走行など多くの分野で広範囲に利用されている。
追跡はしばしばカメラ移動や自己変形、外部環境(隠蔽や似たようなオブジェクトからの干渉)に影響される。
2. Related Work
空間特徴に基づくビジュアルオブジェクト追跡ではViTやResNetが使用されてきたが、最近ではTransformerも導入されている。
3. Method
AQATrackは主に空間エンコーダー、時間デコーダー、および空間時間特徴融合操作モジュール(STM)から構成されている。
空間エンコーダーはHiViTを使用し、逐次ダウンサンプリングネットワークとして機能する。
4. Experiments
LaSOTやLaSOTextなど6つの人気追跡ベンチマークでAQATrackは優れたパフォーマンスを示しました。
Data Extraction:
"AQATrack-256およびAQATrack-384はそれぞれLaSOTで71.4%および72.7%のAUCスコアを達成しました。"
Stats
"AQATrack-256およびAQATrack-384はそれぞれLaSOTで71.4%および72.7%のAUCスコアを達成しました。"