Der Artikel stellt ein neuartiges Framework namens P2G (Plug-and-Play Grounding of Reasoning) vor, das darauf abzielt, die Leistungsfähigkeit von multimodalen Large Language Models (MLLMs) beim visuellen Schlussfolgern zu verbessern.
Zunächst beschreibt der Artikel die Herausforderungen, die MLLMs beim Verständnis von hochauflösenden und textreichen Bildern gegenüberstehen. Traditionelle Ansätze, die auf umfangreichen überwachten Feinabstimmungsdaten basieren, stoßen hier an ihre Grenzen.
Um diese Einschränkungen zu überwinden, schlägt P2G einen neuartigen Ansatz vor, bei dem externe Agenten (OCR-Agent und Grounding-Agent) genutzt werden, um zusätzliche textuelle und visuelle Informationen zu den Eingabebildern bereitzustellen. Das MLLM kann dann diese detaillierten Informationen in seinen Schlussfolgerungsprozess einbeziehen.
Darüber hinaus führt der Artikel einen neuen Benchmark namens P2GB ein, der speziell darauf ausgelegt ist, die Fähigkeiten von MLLMs beim Verständnis von textreichen und hochauflösenden Bildern zu testen.
Umfangreiche Experimente auf verschiedenen visuellen Schlussfolgerungsdatensätzen zeigen, dass P2G deutlich bessere Ergebnisse erzielt als vergleichbare MLLM-Modelle, insbesondere bei Aufgaben, die ein detailliertes Verständnis von Texten und Objekten in Bildern erfordern.
To Another Language
from source content
arxiv.org
Djupare frågor