본 연구는 DetToolChain이라는 새로운 프롬프팅 패러다임을 제안하여 GPT-4V와 Gemini와 같은 다중 모달 대형 언어 모델(MLLM)의 제로 샷 객체 탐지 능력을 극대화한다. 이를 위해 다음과 같은 핵심 내용을 담고 있다:
탐지 프롬프팅 도구 키트: 시각적 처리 프롬프트와 탐지 추론 프롬프트로 구성된 포괄적인 탐지 프롬프팅 도구 키트를 제안한다. 시각적 처리 프롬프트는 관심 영역 강조, 공간 측정 표준 제공, 장면 이미지 파싱 등을 통해 MLLM의 탐지 성능을 향상시킨다. 탐지 추론 프롬프트는 탐지 결과를 진단하고 개선할 수 있는 방향을 제시한다.
다중 모달 탐지 Chain-of-Thought: 탐지 프롬프팅 도구 키트를 효과적으로 활용하기 위해 MLLM이 단계적으로 탐지 작업을 수행할 수 있도록 하는 다중 모달 탐지 Chain-of-Thought를 제안한다. 이를 통해 MLLM은 복잡한 탐지 작업을 단순한 하위 작업으로 분해하고, 단계적으로 결과를 개선할 수 있다.
실험 결과: 제안 방법론은 다양한 탐지 작업에서 기존 최신 방법 대비 큰 성능 향상을 보였다. 특히 열린 어휘 탐지, 설명된 객체 탐지, 지시 표현 이해 등의 과제에서 두드러진 성과를 달성했다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yixuan Wu,Yi... : arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12488.pdfDaha Derin Sorular