核心概念
大規模ビジョン言語モデルの性能評価には、出力長の偏りや潜在的な能力要因が大きな影響を及ぼしている。これらの要因を分析することで、より包括的で偏りのない評価手法の設計につながる。
要約
本研究は、大規模ビジョン言語モデルの性能評価に関する重要な知見を提供している。
出力長の偏りが性能評価に大きな影響を及ぼすことを明らかにした。評価ベンチマークには、出力長の異なるタスクをバランス良く含める必要がある。
因子分析により、意外性のある合理的な潜在的能力要因を発見した。これらの要因を考慮したベンチマーク設計が重要である。
新しいデータセットOLIVEを提案した。OLIVEは、既存のデータセットとは異なる特性を持ち、現実世界に近い使用ケースを模擬している。
これらの知見は、偏りのない包括的なビジョン言語モデルの評価手法の設計に貢献する。
統計
出力長が1-3単語のタスクと出力長が40単語以上のタスクの間には、大きな性能差がある。
A-OKVQA (MC)、VQAv2、ScienceQAなどのタスクが、最も良好な転移学習効果を示した。
引用
"Vision-language (VL) models, pretrained on colossal image-text datasets, have attained broad VL competence that is difficult to evaluate."
"A common belief is that a small number of VL skills underlie the variety of VL tests."
"We reveal interesting characteristics that have important implications for test suite design."