大規模言語モデルにマルチモーダルな外部知識を統合することで、視覚言語タスクにおける応答の精度と適切性を向上させる。
視覚的プロンプトと入力画像を処理することで、MLLMの柔軟な使用と深い応答を実現する。
マルチモーダル大規模言語モデルの推論能力を向上させるため、外部エージェントを活用してテキストや視覚的な手がかりを即座に得る新しい枠組みを提案する。