Concepts de base
제안된 추적기는 자기회귀 쿼리를 사용하여 시간에 따른 목표물 외형 변화를 효과적으로 학습하고, 정적 외형과 순간적 변화를 결합하여 강건한 추적을 수행한다.
Résumé
이 논문은 비디오 객체 추적을 위한 새로운 방법을 제안한다. 기존 추적 알고리즘은 수동으로 설계된 구성 요소를 사용하여 시공간 정보를 통합하는데, 이로 인해 시공간 정보가 충분히 활용되지 못하는 문제가 있다.
제안하는 AQATrack은 자기회귀 쿼리를 사용하여 시간에 따른 목표물 외형 변화를 효과적으로 학습한다. 먼저 학습 가능한 자기회귀 쿼리를 도입하여 슬라이딩 윈도우 방식으로 순간적인 목표물 외형 변화를 포착한다. 그리고 기존 쿼리들 간의 상호작용을 통해 현재 프레임의 새로운 쿼리를 생성하는 시간 주의 메커니즘을 설계한다. 마지막으로 정적 외형과 순간적 변화를 결합하는 시공간 정보 융합 모듈(STM)을 통해 강건한 추적을 수행한다.
실험 결과, 제안 방법은 6개의 주요 추적 벤치마크에서 SOTA 성능을 달성했다. 특히 장기 추적 데이터셋 LaSOT에서 72.7%의 AUC 점수를 기록하며 기존 방법을 크게 앞섰다. 이는 제안 방법이 시공간 정보를 효과적으로 활용하여 목표물 상태 변화와 움직임 추세를 잘 포착할 수 있음을 보여준다.
Stats
제안 모델 AQATrack-384는 LaSOT 벤치마크에서 72.7%의 AUC 점수를 달성했다.
AQATrack-256은 LaSOText 벤치마크에서 62.2%의 Pnorm 점수를 기록했다.
AQATrack-256은 TNL2K 벤치마크에서 57.8%의 AUC 점수를 달성했다.
AQATrack-384는 UAV123 벤치마크에서 71.2%의 AUC 점수를 기록했다.
Citations
"To fully explore the spatio-temporal information, we propose an adaptive tracker to capture instantaneous appearance changes without any hand-designed components."
"Benefiting from the STM, we can effectively combine the static appearance and instantaneous changes to guide robust tracking."
"Extensive experimental results demonstrate that our tracker achieves SOTA performance on six challenging benchmarks."