ChatTracker는 멀티모달 대규모 언어 모델(MLLM)을 활용하여 시각적 객체 추적 성능을 향상시키는 새로운 프레임워크입니다.
ACTrack은 사전 학습된 Transformer 백본의 매개변수를 고정하고 경량 가산 네트워크를 추가하여 시간-공간 관계를 모델링함으로써 학습 효율성과 추적 성능을 균형있게 달성한다.