核心概念
ビジョン-言語モデルは化合名詞を適切に理解できるか、その能力を評価することが本研究の主な目的である。
要約
本研究は、ビジョン-言語モデルの化合名詞の理解能力を評価するための新しいベンチマーク「Compun」を提案している。Compunは400の一般的に使用される化合名詞から構成され、各インスタンスには化合名詞を表す画像と、その構成要素となる2つの名詞を表す画像が含まれている。
ビジョン-言語モデルの課題は、与えられた化合名詞に対応する正しい画像を選択することである。研究では、代表的なビジョン-言語モデルであるCLIPの性能を詳細に分析し、CLIPが特に属性化合名詞の理解に限界があることを示している。
さらに、著者らは新しい手法を提案し、化合名詞を含む多様なキャプションを言語モデルに生成させ、それらのキャプションを使ってテキストから画像への検索を行うことで、CLIPの化合名詞理解能力を8.25%向上させることができた。
統計
化合名詞の構成要素のうち一方の名詞しか画像に表れていない場合、CLIPはその化合名詞を正しく識別することが困難である。
化合名詞の構成要素の両方の名詞が画像に表れている場合、CLIPの正解率は相対的に高い。
化合名詞の構成要素の名詞が画像に全く表れていない場合、CLIPの正解率は最も高い。
引用
化合名詞の解釈には、構成要素間の暗黙的な意味関係を解読する能力が必要とされる。
事前学習言語モデルは、膨大なテキストデータから広範な意味知識を獲得しており、化合名詞の解釈においても優れた性能を示している。