Core Concepts
다중 객체 추적 성능 향상을 위해 공간적 및 시간적 일관성을 보장하는 표현 정렬 규칙을 제안하고, 이를 대조 정규화 손실로 활용하여 간단하고 효율적인 표현 정렬 모듈을 학습한다.
Abstract
이 논문은 다중 객체 추적(MOT) 문제를 해결하기 위해 두 가지 간단하면서도 효과적인 표현 정렬 규칙을 제안한다. 첫 번째 규칙은 연속 프레임 간 동일 객체의 표현을 가까워지게 하고, 다른 객체의 표현은 멀어지게 하는 것이다. 두 번째 규칙은 동일 객체 내 부분 영역의 표현을 가까워지게 하고, 다른 객체의 부분 영역은 멀어지게 하는 것이다.
이 두 가지 규칙을 대조 정규화 손실로 활용하여 표현 정렬 모듈(RAM)을 학습한다. RAM은 검출기에 의존하지 않는 단일 레이어 트랜스포머 인코더로 구성되며, 공간적 및 시간적으로 정렬된 특징을 생성한다. 이 정렬된 특징은 기존 특징과 가중 합산되어 데이터 연관 단계에 활용된다.
실험 결과, RAM을 다양한 추적기에 통합하면 MOTA, IDF1, IDS 등의 주요 성능 지표가 향상되었다. 또한 RAM은 계산 복잡도와 메모리 요구량이 낮아 실시간 성능에 거의 영향을 미치지 않는다. 더불어 주석 데이터 없이도 추적기 출력을 활용하여 RAM을 학습할 수 있어, 무감독 환경에서도 추적 성능을 향상시킬 수 있다.
Stats
동일 객체의 연속 프레임 표현 간 거리를 줄이고, 다른 객체 간 거리를 늘리는 것이 중요하다.
동일 객체 내 부분 영역의 표현 간 거리를 줄이고, 다른 객체 간 거리를 늘리는 것이 중요하다.
Quotes
"Achieving high-performance in multi-object tracking algorithms heavily relies on modeling spatio-temporal relationships during the data association stage."
"This work aims to simplify deep learning-based spatio-temporal relationship models and introduce interpretability into features for data association."