核心概念
大規模生成型ビジョン言語モデルの合成性能力は十分に理解されていない。現在の評価指標とベンチマークには構文的バイアスが存在し、モデルの真の合成能力を適切に評価できていない。
要約
本論文は、大規模生成型ビジョン言語モデル(GVLM)の合成性能力を評価する際の課題を明らかにし、それを解決するための新しいベンチマークを提案している。
まず、現在の評価指標であるVisualGPTScoreが、モデルの構文的正確性を過度に重視してしまうことを示した。次に、既存のベンチマークにも構文的バイアスが存在することを定量的に分析し、SyntaxBiasScoreを提案した。
これらの分析に基づき、SyntActically DE-biased benchmark (SADE)を新たに構築した。SADEは、構文的バイアスを軽減した上で、ビジュアルコンテンツの理解を評価する新しい課題も導入している。
最後に、複数のGVLMモデルをSADEで評価し、モデルの合成性能力と人間の判断との整合性を明らかにした。本研究は、GVLMの合成性能力を公平に評価するための重要な一歩となる。
統計
大規模生成型ビジョン言語モデルは、言語モデルの自己回帰的な生成能力を活用し、視覚特徴を言語空間にマッピングすることで、ビジョン言語タスクを解決する。
現在の評価指標であるVisualGPTScoreは、モデルの構文的正確性を過度に重視してしまう傾向がある。
既存のベンチマークにも構文的バイアスが存在し、GVLMの真の合成能力を適切に評価できていない。
引用
"VisualGPTScoreは時々、内容的な正確性よりも構文的な正確性を好む傾向がある。"
"現在の多様なビジョン言語合成推論ベンチマークには、広範な構文的バイアスが存在する。"