이 논문은 추론 기반 분할 작업에 대한 새로운 접근법인 CoReS를 제안한다. 추론 기반 분할 작업은 복잡한 질문에 대해 정확한 객체 영역을 찾아내는 것을 요구한다. 기존 다중 모달 대형 언어 모델(MLLM)은 이러한 복잡한 추론 상황에서 객체 위치를 정확히 찾는 데 어려움을 겪는다.
CoReS는 인간의 시각 탐색 과정을 모방하여 상위-하위 계층적 구조를 구축한다. 구체적으로 CoReS는 추론 체인과 분할 체인으로 구성된 이중 체인 구조를 제안한다. 추론 체인은 MLLM의 출력에 논리적 수준의 정보를 주입하여 시각 계층을 형성한다. 분할 체인은 이 계층 정보를 활용하여 단계적으로 분할 결과를 최적화한다. 또한 CoReS는 MLLM이 이러한 계층적 출력을 자발적으로 생성할 수 있도록 문맥 입력을 제공한다.
실험 결과, CoReS는 기존 최신 방법보다 7.1% 향상된 성능을 보였다. 이는 CoReS가 복잡한 추론 상황에서 정확한 객체 분할을 달성할 수 있음을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询