本論文では、マルチモーダル大規模言語モデル(MLLM)の単一モーダルバイアス(言語バイアスと視覚バイアス)を定量化し、軽減する方法を提案している。
まず、VQAタスクにおけるMLLMの予測プロセスを因果グラフで表現し、単一モーダルバイアスの影響を分析した。この分析に基づき、MLLMの感度(正解変化への応答)と頑健性(バイアスへの依存度)を評価できる。
次に、MLLMの単一モーダルバイアスを克服するために、知識ベースのマルチホップ推論を必要とするMORE(Multimodal Over-Reliance Evaluation)データセットを構築した。MORE には、正解、言語バイアス、視覚バイアス、意味的誤解の選択肢が含まれ、因果推論の過程(因果ラショナル)も提供される。
さらに、限定アクセスMLLMに対するDecompose-Verify-Answer(DeVA)フレームワークと、オープンソースMLLMのファインチューニングを提案し、MLLMの推論能力向上を示した。
全体として、本研究は、MLLMの単一モーダルバイアスの定量化と軽減に貢献し、マルチモーダル推論の課題に新たな洞察を与えている。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Meiqi Chen,Y... kl. arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18346.pdfDybere Forespørgsler