本論文では、高解像度の自然画像や文字情報が豊富な画像に対する推論能力を向上させるため、新しい枠組みであるP2Gを提案している。
P2Gの主な特徴は以下の通り:
推論の際に、モデル自身で現在の能力を判断し、必要に応じて外部のエージェントから詳細な情報を得る「Deliberate Reasoning」を導入している。これにより、モデルの推論の正確性と根拠づけが向上する。
外部のOCRエージェントやグラウンディングエージェントを活用して、画像中の重要なテキストや物体の情報を即座に得る「Plug-and-Play Grounding」を実現している。これにより、高解像度画像や文字情報が豊富な画像に対する理解が向上する。
上記の機能を評価するため、高解像度画像や文字情報が豊富な画像を含む新しいベンチマークであるP2GBを提案している。
実験の結果、P2Gは既存のマルチモーダル大規模言語モデルと比べて、特に文字情報が豊富な画像に対する推論精度で大幅な向上を示した。また、同程度の規模の言語モデルでありながら、最先端の大規模モデルであるGPT-4Vと匹敵する性能を達成した。
本研究は、マルチモーダル大規模言語モデルの推論能力向上に向けて、外部エージェントを活用したグラウンディングの重要性を示唆している。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문