Основные понятия
본 연구는 DetToolChain이라는 새로운 프롬프팅 패러다임을 제안하여 GPT-4V와 Gemini와 같은 다중 모달 대형 언어 모델(MLLM)의 제로 샷 객체 탐지 능력을 극대화한다.
Аннотация
본 연구는 DetToolChain이라는 새로운 프롬프팅 패러다임을 제안하여 GPT-4V와 Gemini와 같은 다중 모달 대형 언어 모델(MLLM)의 제로 샷 객체 탐지 능력을 극대화한다. 이를 위해 다음과 같은 핵심 내용을 담고 있다:
-
탐지 프롬프팅 도구 키트: 시각적 처리 프롬프트와 탐지 추론 프롬프트로 구성된 포괄적인 탐지 프롬프팅 도구 키트를 제안한다. 시각적 처리 프롬프트는 관심 영역 강조, 공간 측정 표준 제공, 장면 이미지 파싱 등을 통해 MLLM의 탐지 성능을 향상시킨다. 탐지 추론 프롬프트는 탐지 결과를 진단하고 개선할 수 있는 방향을 제시한다.
-
다중 모달 탐지 Chain-of-Thought: 탐지 프롬프팅 도구 키트를 효과적으로 활용하기 위해 MLLM이 단계적으로 탐지 작업을 수행할 수 있도록 하는 다중 모달 탐지 Chain-of-Thought를 제안한다. 이를 통해 MLLM은 복잡한 탐지 작업을 단순한 하위 작업으로 분해하고, 단계적으로 결과를 개선할 수 있다.
-
실험 결과: 제안 방법론은 다양한 탐지 작업에서 기존 최신 방법 대비 큰 성능 향상을 보였다. 특히 열린 어휘 탐지, 설명된 객체 탐지, 지시 표현 이해 등의 과제에서 두드러진 성과를 달성했다.
Статистика
GPT-4V + DetToolChain은 CORA 대비 Novel, Base, All 클래스에서 각각 22.7AP50, 4.1AP50, 9.0AP50 향상되었다.
GPT-4V + DetToolChain은 DETR-R50 대비 AP50에서 2.4 높은 성능을 보였다.
GPT-4V + DetToolChain은 RefCOCO val, test-A, test-B에서 각각 44.53%, 46.11%, 24.85% 향상되었다.
Gemini + DetToolChain과 GPT-4V + DetToolChain은 HRSC2016 테스트 셋에서 각각 mIoUp 0.46, 0.50, mIoUr 0.47, 0.51 향상되었다.
Цитаты
"우리는 DetToolChain이라는 새로운 프롬프팅 패러다임을 제안하여 GPT-4V와 Gemini와 같은 다중 모달 대형 언어 모델(MLLM)의 제로 샷 객체 탐지 능력을 극대화한다."
"DetToolChain은 시각적 처리 프롬프트와 탐지 추론 프롬프트로 구성된 포괄적인 탐지 프롬프팅 도구 키트와 MLLM이 단계적으로 탐지 작업을 수행할 수 있도록 하는 다중 모달 탐지 Chain-of-Thought로 구성된다."
"제안 방법론은 다양한 탐지 작업에서 기존 최신 방법 대비 큰 성능 향상을 보였다. 특히 열린 어휘 탐지, 설명된 객체 탐지, 지시 표현 이해 등의 과제에서 두드러진 성과를 달성했다."