本研究では、大規模ビジョン言語モデル(LVLM)の評価のための包括的なベンチマークであるVALOR-BENCHを提案している。VALOR-BENCHは、オブジェクト、属性、関係の3つの側面から構成されており、特に属性と関係の評価に焦点を当てている。また、連想バイアスに基づいて選択された挑戦的な画像を使用することで、LVLMの脆弱性を明らかにしている。
さらに、VALOR-EVALと呼ばれる新しい評価フレームワークを提案している。VALOR-EVALは、大規模言語モデル(LLM)を活用した2段階の設計により、オープン語彙の設定でオブジェクト、属性、関係の各側面の忠実性と網羅性を評価することができる。
10種類の確立されたLVLMを評価した結果、一部のLVLMは精度を重視するあまり、網羅性が低下するという傾向が明らかになった。これは、LVLMの出力における忠実性と網羅性のバランスを達成することの重要性を示唆している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Haoyi Qiu,We... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13874.pdfDeeper Inquiries