이 논문은 다중 모달 대형 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위한 P2G 프레임워크를 제안한다.
먼저 MLLM이 자신의 현재 능력을 평가하고 추가적인 단서가 필요한지 여부를 결정하는 "의도적 추론" 단계를 도입한다.
그 다음 "플러그 앤 플레이 그라운딩" 단계에서는 외부 에이전트(OCR 에이전트, 시각적 그라운딩 에이전트)를 활용하여 MLLM에 필요한 텍스트 및 시각적 단서를 동적으로 제공한다. 이를 통해 MLLM은 고해상도 자연 이미지와 텍스트 풍부 이미지에 대한 이해와 추론 능력을 향상시킬 수 있다.
또한 이 논문은 P2GB라는 새로운 벤치마크를 제안하여 MLLM의 이러한 능력을 평가한다. P2GB는 고해상도 이미지와 텍스트 풍부 이미지에 대한 이해와 추론을 측정한다.
실험 결과, P2G는 기존 MLLM 모델들에 비해 텍스트 풍부 시각적 추론 과제에서 크게 향상된 성능을 보였다. 특히 7B 규모의 P2G가 13B 규모의 모델을 능가하는 성과를 보였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jiaxing Chen... a las arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19322.pdfConsultas más profundas