Core Concepts
DETR 기반 모델들은 일반적인 물체 탐지에서 성공적인 성능을 보였지만, 작은 물체 탐지에는 여전히 어려움이 있다. 이를 해결하기 위해 우리는 카테고리 카운팅 모듈, 카운팅 기반 특징 강화, 동적 쿼리 선택 등의 기법을 적용한 DQ-DETR 모델을 제안한다.
Abstract
이 논문은 DETR 기반 모델들이 작은 물체 탐지에 어려움을 겪는 이유를 분석하고, 이를 해결하기 위한 DQ-DETR 모델을 제안한다.
먼저, 카테고리 카운팅 모듈을 통해 이미지 내 물체의 개수를 예측하고, 이를 기반으로 DETR 디코더의 쿼리 개수를 동적으로 조절한다. 이를 통해 물체가 적은 이미지에서는 과도한 쿼리 사용을 방지하고, 물체가 많은 이미지에서는 충분한 쿼리를 사용할 수 있다.
또한, 카운팅 기반 특징 강화 모듈을 통해 인코더의 시각 특징에 물체의 크기와 위치 정보를 추가로 반영한다. 이를 통해 작은 물체의 특징을 더욱 잘 포착할 수 있다.
마지막으로, 동적 쿼리 선택 기법을 통해 쿼리의 내용과 위치 정보를 개선하여 작은 물체를 더 잘 탐지할 수 있도록 한다.
제안한 DQ-DETR 모델은 AI-TOD-V2 데이터셋에서 기존 DETR 기반 모델 대비 16.6%, 20.5% 향상된 AP, APvt 성능을 보였다.
Stats
이미지당 평균 24.64개의 물체가 있으며, 표준편차가 63.94로 매우 큰 편이다.
전체 물체 중 86%가 16픽셀 미만의 작은 물체이며, 가장 큰 물체도 64픽셀을 넘지 않는다.
Quotes
"DETR-like 방법들은 물체 쿼리의 수와 위치 정보를 이미지의 특성에 맞게 조절하지 않아 작은 물체 탐지에 적합하지 않다."
"우리가 제안한 DQ-DETR은 동적 쿼리 선택과 카운팅 기반 특징 강화를 통해 작은 물체를 효과적으로 탐지할 수 있다."