本論文は、自然言語による対象追跡(Tracking by Natural Language Specification: TNL)のための新しいフレームワークを提案している。従来の手法では、言語ベースのマッチングと外観ベースのマッチングを別々に行い、その結果を統合していたが、言語表現と視覚テンプレートが動的に変化する中で、この手法では対象の識別が困難になる問題があった。
提案手法では以下の2つの主要な構成要素を導入することで、この問題に取り組んでいる:
これらの設計により、提案手法は対象の識別能力を向上させ、時空間的な整合性を確保することができる。
実験では、TNL2K、OTB-Lang、LaSOTの3つの自然言語追跡ベンチマークと、RefCOCOgの視覚グラウンディングベンチマークで評価を行い、提案手法の有効性を示している。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Yanyan Shao,... às arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19975.pdfPerguntas Mais Profundas