Core Concepts
大規模視覚言語モデルの評価において、視覚情報が不要な問題や、モデルの学習データへの意図せぬリークが存在することが明らかになった。そのため、視覚依存性が高く、リークの影響が少ない新しいベンチマーク「MMStar」を提案し、大規模視覚言語モデルの実際の多様な多モーダル能力を評価する。
Abstract
本論文は、大規模視覚言語モデル(LVLM)の評価における2つの主要な課題を指摘し、それらに対処するための新しいベンチマーク「MMStar」を提案している。
視覚情報が不要な問題が多数存在する
一部の問題は、質問文や選択肢から直接答えを導き出せるか、LLMに蓄積された知識から答えられる。
定量的な分析の結果、ScienceQAでは57.2%、AI2Dでは46.2%の問題が視覚情報なしでも解答可能であることが明らかになった。
意図せぬデータリークが学習時に発生している
LLMやLVLMが、視覚情報なしで一部の視覚依存の問題に正解できる事例が観察された。
これは、学習時のデータリークによって、モデルがこれらの問題のテキスト情報を記憶してしまったためと考えられる。
定量的な分析の結果、GeminiPro-72Bは視覚情報なしでMMMUベンチマークの42.4%を達成し、多くのLVLMを上回ることが分かった。
為に、MMStarベンチマークを提案した。MMStarは1,500の高品質な多モーダル評価サンプルから構成され、6つの多モーダル能力と18の詳細軸を網羅している。さらに、多モーダル学習による実際の性能向上度(MG)と学習データリークの度合い(ML)を測る2つの新しい指標を開発した。
16種類の代表的なLVLMをMMStarで評価した結果、GPT4Vが57.1%の精度で最高スコアを記録し、MGも高く、MLも小さいことから、効果的な多モーダル学習戦略を持つことが示された。
Stats
ScienceQAでは57.2%の問題が、AI2Dでは46.2%の問題が、視覚情報なしでも解答可能であった。
GeminiPro-72Bは視覚情報なしでMMMUベンチマークの42.4%を達成し、多くのLVLMを上回った。