核心概念
高度なマルチモーダル大規模言語モデル(MLLM)は、知識ベースのVQAタスクにおいて、知識範囲が限られているため苦戦しており、マルチモーダル検索拡張生成(mRAG)が効果的な解決策として期待されている。しかし、既存のmRAG手法は、外部知識が不要な場合でも検索を実行してしまう、クエリをサポートする証拠の特定が不足している、情報フィルタリングモジュールやルールによってモデルの複雑さが増大するといった課題を抱えている。本稿では、これらの課題に対処するため、2つの容易に実装可能な熟考操作を通じて適応的な検索と有用な情報ローカリゼーションを実現する、マルチモーダル検索-熟考-拡張生成(mR2AG)と呼ばれる新しい汎用フレームワークを提案する。
要約
本稿では、知識ベースのVQAタスクを最適化しながら、汎用的なMLLMとしてのモデルの能力を維持する、高度なマルチモーダルRAGフレームワークであるmR2AGを提案しています。
既存手法の課題
従来のMLLMは、画像や一般的な常識に基づくVQAタスクでは優れた性能を発揮しますが、特定の視覚エンティティに関する詳細な知識を必要とする知識ベースのVQAタスクでは、知識範囲が限られているため、正確な回答を生成することが困難でした。
この問題に対処するため、外部知識ベースを活用するマルチモーダル検索拡張生成(mRAG)が導入されました。しかし、既存のmRAG手法は、以下の3つの課題を抱えています。
- 無差別な検索の実行: 外部知識が不要な場合でも検索を実行してしまうため、ノイズが混入し、誤った回答が生成される可能性があります。
- 明示的な証拠のローカリゼーションの欠如: 現在のmRAG手法は、検索されたテキストを入力として回答を直接生成するため、どの情報が回答の根拠となったのかが不明確です。
- モデルの複雑性の増大: 検索されたコンテンツをフィルタリングするために、複雑なルールや外部モデルが導入されるため、モデルの複雑さが増大します。
mR2AGの概要
mR2AGは、既存のMLLMに基づいて設計されており、2つの新しい熟考操作を導入することで、上記の課題を解決します。
- 検索-熟考: ユーザのクエリが知識ベース型か視覚依存型かを判断し、適応的に検索を実行するかどうかを決定します。
- 関連性-熟考: 検索された情報の中から、クエリに関連する証拠となる部分(文章など)を特定します。
これらの熟考操作は、MLLMの語彙を変更するだけで実装できるため、モデルの構造を破壊することなく、既存の機能と効果的に連携させることができます。
mR2AGの利点
mR2AGは、以下の利点があります。
- 知識ベースのVQAタスクにおいて、既存のmRAG手法よりも優れた性能を発揮します。
- 検索を適応的に実行することで、推論効率を向上させます。
- 検索されたコンテンツを明示的に評価することで、ノイズを排除し、生成される回答の信頼性を高めます。
- 既存のMLLMに容易に統合することができます。
今後の展望
今後の研究では、知識グラフベースの検索拡張システムや、より広範な応用シナリオについて検討していく予定です。
統計
INFOSEEKHumanテストセットで従来の最先端手法を10.6%上回る性能を達成
INFOSEEKWikidataテストセットで従来の最先端手法を15.5%上回る性能を達成
Encyclopedic-VQA(Enc-VQA)テストセットのシングルホップ質問で従来の最先端手法を2.5%上回る性能を達成
Encyclopedic-VQA(Enc-VQA)テストセットの複数回答質問で従来の最先端手法を18.2%上回る性能を達成
Visual-dependentタスクのベンチマークにおいて、ベースとなるMLLMと同等の性能を維持
引用
"Advanced Multimodal Large Language Models (MLLMs) struggle with recent Knowledge-based VQA tasks, such as INFOSEEK and Encyclopedic-VQA, due to their limited and frozen knowledge scope, often leading to ambiguous and inaccurate responses."
"To address these shortcomings, we propose a novel generalized framework called multimodal Retrieval-Reflection-Augmented Generation (mR2AG), which achieves adaptive retrieval and useful information localization to enable answers through two easy-to-implement reflection operations, preventing high model complexity."
"mR2AG significantly outperforms state-of-the-art MLLMs (e.g., GPT-4v/o) and RAG-based MLLMs on INFOSEEK and Encyclopedic-VQA, while maintaining the exceptional capabilities of base MLLMs across a wide range of Visual-dependent tasks."