DocGenomeは、153の学術分野にわたる500Kの科学文書を自動アノテーションし、文書分類、視覚的グラウンディング、レイアウト検出、文書変換、単一ページおよび複数ページのQAなど、多様なタスクをカバーする大規模ベンチマークデータセットである。これにより、マルチモーダル大規模言語モデルの科学文書理解能力を包括的に評価できる。
大規模言語モデルにマルチモーダルな外部知識を統合することで、視覚言語タスクにおける応答の精度と適切性を向上させる。
視覚的プロンプトと入力画像を処理することで、MLLMの柔軟な使用と深い応答を実現する。
マルチモーダル大規模言語モデルの推論能力を向上させるため、外部エージェントを活用してテキストや視覚的な手がかりを即座に得る新しい枠組みを提案する。