核心概念
大規模ビジョン言語モデルは、現実的な出力を生成できないという問題に直面している。包括的な定量的評価が必要不可欠であり、オブジェクト、属性、関係の3つの側面から評価する必要がある。
摘要
本研究では、大規模ビジョン言語モデル(LVLM)の評価のための包括的なベンチマークであるVALOR-BENCHを提案している。VALOR-BENCHは、オブジェクト、属性、関係の3つの側面から構成されており、特に属性と関係の評価に焦点を当てている。また、連想バイアスに基づいて選択された挑戦的な画像を使用することで、LVLMの脆弱性を明らかにしている。
さらに、VALOR-EVALと呼ばれる新しい評価フレームワークを提案している。VALOR-EVALは、大規模言語モデル(LLM)を活用した2段階の設計により、オープン語彙の設定でオブジェクト、属性、関係の各側面の忠実性と網羅性を評価することができる。
10種類の確立されたLVLMを評価した結果、一部のLVLMは精度を重視するあまり、網羅性が低下するという傾向が明らかになった。これは、LVLMの出力における忠実性と網羅性のバランスを達成することの重要性を示唆している。
統計資料
大規模ビジョン言語モデルの出力は、しばしば現実的ではない内容を含んでいる。
既存の評価手法は、オブジェクトの存在に焦点を当てることが多く、属性や関係の評価が不足している。
提案するVALOR-BENCHは、オブジェクト、属性、関係の3つの側面から構成されており、連想バイアスに基づいて選択された挑戦的な画像を使用している。
VALOR-EVALは、大規模言語モデルを活用した2段階の設計により、オープン語彙の設定でオブジェクト、属性、関係の各側面の忠実性と網羅性を評価することができる。
引述
"大規模ビジョン言語モデルは、現実的な出力を生成できないという問題に直面している。"
"既存の評価手法は、オブジェクトの存在に焦点を当てることが多く、属性や関係の評価が不足している。"
"VALOR-BENCHは、オブジェクト、属性、関係の3つの側面から構成されており、連想バイアスに基づいて選択された挑戦的な画像を使用している。"
"VALOR-EVALは、大規模言語モデルを活用した2段階の設計により、オープン語彙の設定でオブジェクト、属性、関係の各側面の忠実性と網羅性を評価することができる。"