이 논문은 시각적 객체 추적(VOT) 문제에 대한 새로운 프레임워크인 ACTrack을 제안한다. 기존의 VOT 방법들은 외형 기반 유사성 또는 장기 관계 모델링에 초점을 맞추어 연속 프레임 간 풍부한 시간적 맥락을 쉽게 간과하는 문제가 있었다.
ACTrack은 사전 학습된 Transformer 백본의 매개변수를 고정하고 경량 가산 네트워크를 추가하여 시간-공간 관계를 모델링한다. 구체적으로:
실험 결과, ACTrack은 학습 효율성과 추적 성능을 균형있게 달성하며, 다양한 벤치마크에서 최신 성능을 달성한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yushan Han,K... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.07914.pdfYêu cầu sâu hơn