핵심 개념
Frozen-DETR은 사전 학습된 기반 모델(foundation model)을 고정된 특징 강화 모듈로 활용하여 객체 감지 성능을 향상시키는 새로운 방법을 제시합니다.
초록
Frozen-DETR: 고정 기반 모델을 활용한 객체 감지 성능 향상
본 연구 논문에서는 사전 학습된 대규모 기반 모델을 객체 감지 작업에 효과적으로 활용하는 Frozen-DETR이라는 새로운 방법을 제시합니다. Frozen-DETR은 기반 모델을 객체 감지 모델의 백본 네트워크로 사용하는 기존 방식과 달리, 고정된 특징 강화 모듈로 활용합니다.
본 연구의 목표는 사전 학습된 기반 모델의 풍부한 이미지 이해 능력을 객체 감지 모델에 전이하여 감지 성능을 향상시키는 것입니다. 특히, 대규모 데이터셋으로 학습된 기반 모델의 고차원 의미 정보를 활용하여 객체 감지 모델의 분류 능력을 향상시키는 데 중점을 둡니다.
Frozen-DETR은 기반 모델의 클래스 토큰과 패치 토큰을 각각 디코더와 인코더에서 활용합니다.
디코더 강화
기반 모델의 클래스 토큰은 이미지 전체에 대한 풍부한 맥락 정보를 담고 있습니다. Frozen-DETR은 이를 "이미지 쿼리"로 활용하여 객체 쿼리 디코딩을 용이하게 합니다. 구체적으로, 이미지 쿼리는 객체 쿼리와 연결되어 셀프 어텐션 모듈에 입력되고, 이를 통해 객체 쿼리는 이미지 쿼리와 상호 작용하며 고차원 이미지 이해 능력을 흡수합니다.
인코더 강화
기반 모델의 패치 토큰은 세분화된 의미 정보를 포함하고 있습니다. Frozen-DETR은 이를 객체 감지 모델의 인코더에서 특징 융합을 통해 활용합니다. 패치 토큰은 2D 특징 맵으로 변형되어 객체 감지 모델의 백본 네트워크에서 추출된 특징 맵과 연결됩니다. 이러한 융합 과정을 통해 백본 네트워크의 특징 맵은 기반 모델의 고차원 의미 정보를 학습하게 됩니다.