核心概念
マルチモーダル大規模言語モデル (MLLM) の信頼性を向上させるために、応答の評価に特化した複数のオープンソースエキスパートモデルを組み合わせた、分解可能なフレームワーク「DecompGen」を提案する。
要約
DecompGen: エキスパートモデルからの選好分解によるMLLMの信頼性向上
本論文は、マルチモーダル大規模言語モデル (MLLM) の信頼性向上に関する研究論文である。
本研究は、MLLMの応答が画像の内容と乖離してしまう「幻覚」現象を軽減し、信頼性を向上させることを目的とする。
従来の評価モデルは、MLLMの複雑な応答を正確に評価することが困難であった。
そこで本研究では、応答を原子的な検証タスクに分解し、各タスクに最適なエキスパートモデルを割り当てることで、より精緻な評価を可能にするフレームワーク「DecompGen」を提案する。
DecompGenは、オープンソースのエキスパートモデル群を用いることで、高精度かつ効率的な評価を実現する。
具体的には、物体検出、関係性推論、属性認識などのタスクに特化したエキスパートモデルを組み合わせることで、MLLMの応答を多角的に検証する。
DecompGenを用いて構築された選好データセット「DGPref」を用いてMLLMを学習することで、幻覚現象を大幅に抑制できることを示す。