이 논문은 시각적 객체 추적(VOT) 문제에 대한 새로운 프레임워크인 ACTrack을 제안한다. 기존의 VOT 방법들은 외형 기반 유사성 또는 장기 관계 모델링에 초점을 맞추어 연속 프레임 간 풍부한 시간적 맥락을 쉽게 간과하는 문제가 있었다.
ACTrack은 사전 학습된 Transformer 백본의 매개변수를 고정하고 경량 가산 네트워크를 추가하여 시간-공간 관계를 모델링한다. 구체적으로:
실험 결과, ACTrack은 학습 효율성과 추적 성능을 균형있게 달성하며, 다양한 벤치마크에서 최신 성능을 달성한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문