Core Concepts
다양한 장면에서 강건한 보행자 탐지를 위해 대규모 사전 학습 모델에서 일반화된 보행자 지식을 추출하고 이를 대표적이고 작업 관련 지식으로 정제하여 다양한 탐지 프레임워크에서 활용할 수 있는 다양한 보행자 지식 은행을 구축하는 것이 핵심 아이디어이다.
Abstract
이 논문은 보행자 탐지 문제에 대한 새로운 접근 방식을 제안한다. 기존의 보행자 탐지 방법들은 특정 장면 데이터에 맞춰진 보행자 표현을 학습하여 다양한 장면에서의 효과가 제한적이었다. 이에 저자들은 대규모 사전 학습 모델에서 일반화된 보행자 지식을 추출하고, 이를 대표적이고 작업 관련 지식으로 정제하여 다양한 보행자 지식 은행을 구축하는 방법을 제안한다.
구체적으로, 저자들은 다음과 같은 과정을 거친다:
CLIP 이미지 인코더를 사용하여 다양한 보행자 및 배경 이미지에서 일반화된 보행자 표현을 추출한다.
벡터 양자화를 통해 가장 대표적인 보행자 표현을 선별하고, 배경 장면과 잘 구분되도록 학습 가능한 표현 힌트를 추가하여 작업 관련 지식으로 정제한다.
정제된 보행자 지식을 다양한 보행자 탐지 프레임워크에서 활용하여 보행자 특징을 보완한다.
이를 통해 저자들은 다양한 장면에서 강건한 보행자 탐지 성능을 달성할 수 있었다. 실험 결과, 제안 방법은 기존 최신 방법들을 능가하는 성능을 보였으며, 다양한 탐지 프레임워크에서 일관되게 우수한 성능을 보였다.
Stats
보행자 탐지 성능이 Cascade R-CNN 대비 3.4 AP 향상되었다.
Sparse R-CNN 대비 1.7 AP 향상되었다.
D-DETR 대비 2.7 AP 향상되었다.
CityPersons 데이터셋에서 2.4 MR-2 향상되었다.
Caltech 데이터셋에서 0.4 MR-2 향상되었다.
Quotes
"다양한 장면에서 강건한 보행자 탐지를 위해 대규모 사전 학습 모델에서 일반화된 보행자 지식을 추출하고 이를 대표적이고 작업 관련 지식으로 정제하여 다양한 보행자 지식 은행을 구축하는 것이 핵심 아이디어이다."
"제안 방법은 다양한 탐지 프레임워크에서 일관되게 우수한 성능을 보였다."