핵심 개념
본 논문에서는 사전 훈련된 비전-언어 모델을 활용하여 인스턴스 수준의 텍스트 설명을 생성하고, 이를 통해 도메인 간 일반화 성능을 향상시킨, 쿼리 기반 다중 객체 추적기인 IP-MOT를 제안합니다.
초록
IP-MOT: 인스턴스 프롬프트 학습을 통한 크로스 도메인 다중 객체 추적
개요
본 논문에서는 다중 객체 추적(MOT)을 위한 새로운 접근 방식인 IP-MOT(Instance-level Prompt-learning Multi-Object Tracking)를 제안합니다. IP-MOT는 사전 훈련된 비전-언어 모델(CLIP)을 활용하여 각 추적 대상에 대한 인스턴스 수준의 텍스트 설명을 생성하고, 이를 통해 도메인 간 일반화 성능을 향상시킨 쿼리 기반 트랜스포머 모델입니다.
주요 연구 내용
- 문제 제기: 기존 MOT 방식은 특정 도메인에 특화되어 다양한 시나리오에 적용하기 어려웠습니다. 특히, 기존 자연어 표현 기반 방법론들은 수동으로 생성된 텍스트 설명을 사용하여 설명의 세분성과 풍부함이 제한적이었습니다.
- 해결 방안: IP-MOT는 학습 가능한 트랙북(TrackBook)을 도입하여 각 추적 대상에 대한 인스턴스 수준의 텍스트 설명을 자동으로 생성합니다. 이는 프롬프트 튜닝을 통해 CLIP 모델에서 지식을 추출하고, 다양한 추적 환경에서 변하지 않는 대상 정보를 포함하는 텍스트 설명을 생성합니다.
- 구체적인 방법:
- 먼저, ResNet50 백본과 트랜스포머 인코더를 사용하여 입력 프레임의 이미지 특징을 추출합니다.
- 그런 다음, 학습 가능한 텍스트 토큰을 사용하여 각 추적 대상에 대한 고유한 텍스트 설명을 생성합니다.
- 이후, 추출된 이미지 특징과 생성된 텍스트 설명을 CLIP 모델을 사용하여 정렬하여 도메인 간 일관성을 확보합니다.
- 마지막으로, 쿼리 균형 전략(QBS)과 중복 제거 모듈(DEM)을 통해 감지 정확도를 향상시키고 새로운 객체를 효과적으로 처리합니다.
- 실험 결과: IP-MOT는 MOT17, MOT20, DanceTrack 데이터셋을 사용한 실험에서 기존 방법들보다 우수한 성능을 보였습니다. 특히, 도메인 간 일반화 성능 평가에서 IP-MOT는 기존 방법들보다 월등한 성능 향상을 보였습니다.
결론
본 논문에서 제안한 IP-MOT는 인스턴스 수준의 텍스트 설명을 활용하여 다중 객체 추적의 도메인 간 일반화 성능을 크게 향상시켰습니다. 이는 향후 다양한 MOT 응용 분야에서 견고하고 효율적인 객체 추적 시스템을 구축하는 데 기여할 것으로 기대됩니다.
통계
IP-MOT*는 DanceTrack 데이터셋에서 MOTR보다 HOTA는 7.7 (61.9 vs. 54.2), AssA는 6.5 (46.7 vs. 40.2), IDF1은 8.9 (60.4 vs. 51.5) 높은 성능을 보였다.
IP-MOT*는 MOTA에서 4.8 (84.5 vs. 79.7), DetA에서 2.5 (76.0 vs. 73.5) 향상된 검출 정확도를 보였다.
IP-MOT는 MOT17 데이터셋에서 58.2 HOTA, 56.4 AssA, 69.6 IDF1을 달성했다.
IP-MOT는 MOT20 데이터셋에서 49.2 HOTA, 44.6 AssA, 62.5 IDF1을 달성하여 비교 대상 방법들보다 월등한 성능을 보였다.
학습 가능한 텍스트 토큰의 길이를 2에서 4로 늘리면 HOTA 및 AssA 지표가 각각 5.4%, 6.5% 향상되었다.
새로운 집합 평균 손실(Lclip*)을 사용하면 모델의 일반화 성능이 향상되었다.
QBS를 사용하지 않으면 IDF1은 -3.4%, AssA는 -2.8% 감소했다.
IP-MOT는 MOTR (36.9 vs. 33.1 HOTA)에 비해 크게 향상된 성능을 보였으며, 특히 MOTA는 19.3% 향상되었다.