Core Concepts
T-Rex2는 텍스트 프롬프트와 시각 프롬프트를 통합하여 범용 객체 탐지 성능을 향상시킨다. 텍스트 프롬프트와 시각 프롬프트는 서로 보완적인 강점을 가지고 있으며, 이를 활용하여 다양한 시나리오에서 강력한 제로샷 객체 탐지 기능을 제공한다.
Abstract
T-Rex2는 범용 객체 탐지를 위해 텍스트 프롬프트와 시각 프롬프트를 통합한 모델이다. 기존의 텍스트 프롬프트 기반 객체 탐지 모델은 추상적인 개념을 잘 표현할 수 있지만, 데이터 부족과 설명의 한계로 인해 희귀하거나 복잡한 객체 표현에 어려움을 겪었다. 반면, 시각 프롬프트는 구체적인 시각적 예시를 통해 새로운 객체를 잘 표현할 수 있지만, 텍스트 프롬프트만큼 객체의 추상적인 개념을 효과적으로 전달하지 못한다.
T-Rex2는 이러한 텍스트 프롬프트와 시각 프롬프트의 상호 보완적인 강점과 약점을 인식하고, 대조 학습을 통해 이를 통합한다. T-Rex2는 텍스트 프롬프트, 시각 프롬프트, 그리고 두 프롬프트의 조합을 모두 입력으로 받을 수 있어, 다양한 시나리오에 적용할 수 있다.
실험 결과, T-Rex2는 COCO, LVIS, ODinW, Roboflow100 등 다양한 벤치마크에서 탁월한 제로샷 객체 탐지 성능을 보였다. 텍스트 프롬프트와 시각 프롬프트가 서로 보완적인 역할을 하는 것을 확인했는데, 텍스트 프롬프트는 일반적인 객체 인식에 강점이 있고, 시각 프롬프트는 희귀 객체나 언어로 쉽게 설명하기 어려운 시나리오에서 강점을 보였다. 이러한 상호 보완적 관계를 통해 T-Rex2는 다양한 시나리오에서 효과적으로 작동할 수 있다.
Stats
객체 탐지 데이터셋 COCO에서 텍스트 프롬프트는 시각 프롬프트보다 7 AP 포인트 높은 성능을 보였다.
LVIS-minival 데이터셋에서 텍스트 프롬프트는 시각 프롬프트보다 5.4 AP 포인트 높은 성능을 보였다.
LVIS-val 데이터셋에서 시각 프롬프트는 희귀 객체 그룹에서 텍스트 프롬프트보다 3.4 AP 포인트 높은 성능을 보였다.
ODinW와 Roboflow100 데이터셋에서 시각 프롬프트는 각각 5.6 AP 포인트, 9.2 AP 포인트 높은 성능을 보였다.
Quotes
"텍스트 프롬프트는 일반적인 객체 인식에 강점이 있고, 시각 프롬프트는 희귀 객체나 언어로 쉽게 설명하기 어려운 시나리오에서 강점을 보였다."
"이러한 상호 보완적 관계를 통해 T-Rex2는 다양한 시나리오에서 효과적으로 작동할 수 있다."