核心概念
다중 모달 대형 언어 모델의 추론 능력을 향상시키기 위해 외부 에이전트를 활용하여 텍스트 및 시각적 단서를 동적으로 제공하는 플러그 앤 플레이 그라운딩 프레임워크를 제안한다.
摘要
이 논문은 다중 모달 대형 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위한 P2G 프레임워크를 제안한다.
-
먼저 MLLM이 자신의 현재 능력을 평가하고 추가적인 단서가 필요한지 여부를 결정하는 "의도적 추론" 단계를 도입한다.
-
그 다음 "플러그 앤 플레이 그라운딩" 단계에서는 외부 에이전트(OCR 에이전트, 시각적 그라운딩 에이전트)를 활용하여 MLLM에 필요한 텍스트 및 시각적 단서를 동적으로 제공한다. 이를 통해 MLLM은 고해상도 자연 이미지와 텍스트 풍부 이미지에 대한 이해와 추론 능력을 향상시킬 수 있다.
-
또한 이 논문은 P2GB라는 새로운 벤치마크를 제안하여 MLLM의 이러한 능력을 평가한다. P2GB는 고해상도 이미지와 텍스트 풍부 이미지에 대한 이해와 추론을 측정한다.
-
실험 결과, P2G는 기존 MLLM 모델들에 비해 텍스트 풍부 시각적 추론 과제에서 크게 향상된 성능을 보였다. 특히 7B 규모의 P2G가 13B 규모의 모델을 능가하는 성과를 보였다.
统计
고해상도 이미지에서 중요한 객체의 크기가 작아 식별하기 어려운 경우가 많다.
텍스트 풍부 이미지에서 중요한 텍스트 정보가 작은 크기로 존재하는 경우가 많다.
引用
"The surge of Multimodal Large Language Models (MLLMs), given their prominent emergent capabilities in instruction following and reasoning, has greatly advanced the field of visual reasoning."
"To achieve grounding, the above methods invariably train MLLMs to equip them with this capability from scratch, which is undoubtedly challenging and less efficient."
"Our work highlights the potential of plug-and-play grounding of reasoning and opens up a promising alternative beyond model scaling."