核心概念
自然言語の説明と視覚的テンプレートを統合することで、対象の正確で文脈依存的な表現を生成し、対象の識別と追跡を改善する。
要約
本論文は、自然言語による対象追跡(Tracking by Natural Language Specification: TNL)のための新しいフレームワークを提案している。従来の手法では、言語ベースのマッチングと外観ベースのマッチングを別々に行い、その結果を統合していたが、言語表現と視覚テンプレートが動的に変化する中で、この手法では対象の識別が困難になる問題があった。
提案手法では以下の2つの主要な構成要素を導入することで、この問題に取り組んでいる:
- プロンプト変調モジュール:
- 言語プロンプトと視覚プロンプトの相互補完性を活用し、現在の状況に合わせて不整合な記述を除去する。
- 言語プロンプトでは、過去の追跡結果に基づいて現在の状況に合わない記述を抑制する。
- 視覚プロンプトでは、言語記述に基づいて背景の特徴を除去し、対象の外観特徴を強調する。
- 統一的な対象デコーダモジュール:
- 言語ベースのマッチングと外観ベースのマッチングを統一的な問題として扱う。
- マルチモーダルなプロンプト情報を統合し、検索画像から対象の位置を直接予測する。
これらの設計により、提案手法は対象の識別能力を向上させ、時空間的な整合性を確保することができる。
実験では、TNL2K、OTB-Lang、LaSOTの3つの自然言語追跡ベンチマークと、RefCOCOgの視覚グラウンディングベンチマークで評価を行い、提案手法の有効性を示している。
引用
"言語記述と視覚テンプレートは相補的であり、これらを組み合わせてマッチングすることで、対象に関する包括的な理解と認識につながる。"
"プロンプト変調モジュールと対象デコーダモジュールから成る統一的なフレームワークにより、言語と視覚の参照情報を活用し、対象の位置を直接予測することができる。"