本論文は、大規模生成型ビジョン言語モデル(GVLM)の合成性能力を評価する際の課題を明らかにし、それを解決するための新しいベンチマークを提案している。
まず、現在の評価指標であるVisualGPTScoreが、モデルの構文的正確性を過度に重視してしまうことを示した。次に、既存のベンチマークにも構文的バイアスが存在することを定量的に分析し、SyntaxBiasScoreを提案した。
これらの分析に基づき、SyntActically DE-biased benchmark (SADE)を新たに構築した。SADEは、構文的バイアスを軽減した上で、ビジュアルコンテンツの理解を評価する新しい課題も導入している。
最後に、複数のGVLMモデルをSADEで評価し、モデルの合成性能力と人間の判断との整合性を明らかにした。本研究は、GVLMの合成性能力を公平に評価するための重要な一歩となる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究