本論文は、自然言語による対象追跡(Tracking by Natural Language Specification: TNL)のための新しいフレームワークを提案している。従来の手法では、言語ベースのマッチングと外観ベースのマッチングを別々に行い、その結果を統合していたが、言語表現と視覚テンプレートが動的に変化する中で、この手法では対象の識別が困難になる問題があった。
提案手法では以下の2つの主要な構成要素を導入することで、この問題に取り組んでいる:
これらの設計により、提案手法は対象の識別能力を向上させ、時空間的な整合性を確保することができる。
実験では、TNL2K、OTB-Lang、LaSOTの3つの自然言語追跡ベンチマークと、RefCOCOgの視覚グラウンディングベンチマークで評価を行い、提案手法の有効性を示している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yanyan Shao,... lúc arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19975.pdfYêu cầu sâu hơn