本研究は、ビジョン-言語モデルの化合名詞の理解能力を評価するための新しいベンチマーク「Compun」を提案している。Compunは400の一般的に使用される化合名詞から構成され、各インスタンスには化合名詞を表す画像と、その構成要素となる2つの名詞を表す画像が含まれている。
ビジョン-言語モデルの課題は、与えられた化合名詞に対応する正しい画像を選択することである。研究では、代表的なビジョン-言語モデルであるCLIPの性能を詳細に分析し、CLIPが特に属性化合名詞の理解に限界があることを示している。
さらに、著者らは新しい手法を提案し、化合名詞を含む多様なキャプションを言語モデルに生成させ、それらのキャプションを使ってテキストから画像への検索を行うことで、CLIPの化合名詞理解能力を8.25%向上させることができた。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы