Core Concepts
視覚言語モデルの構成的理解を高めるために、内部モーダルコントラストと順位クロスモーダルの損失関数を提案し、既存のモデルに統合することで顕著な性能向上を実現した。
Abstract
本研究は、視覚言語モデル(VLM)の構成的理解能力を向上させるための新しい手法を提案している。
まず、著者らは、既存のVLMが単語の認識に長けているものの、関係性、属性、行動などの細かな意味的な違いを捉えるのが苦手であることを指摘する。この問題の根本原因は、VLMの学習に使用されるデータセットの画像とキャプションの対応関係が不十分であることにある。
そこで著者らは、以下の2つの新しい損失関数を提案した:
内部モーダルコントラスト(IMC)損失: 生成した hard negative キャプションと正解キャプションの表現の違いを最大化することで、モデルが微妙な意味の違いを捉えられるようにする。
順位クロスモーダル(CMR)損失: 正解画像-キャプション対と hard negative 画像-キャプション対の類似度の差を一定以上確保することで、細かな視覚言語の整合性を学習させる。CMRの閾値は学習の進捗に応じて適応的に変化させる。
これらの損失関数を既存のVLMモデルに統合することで、5つの構成的理解ベンチマークにおいて大幅な性能向上を実現した。特に、ARO、VALSE、VL-CheckList、SugarCrepeの各ベンチマークで顕著な改善が見られた。
また、提案手法は標準的な画像-テキスト検索やイメージ分類の性能も維持しつつ、構成的理解を向上させることができることを示した。
以上より、本研究は視覚言語モデルの構成的理解能力を大幅に高める新しい手法を提案し、その有効性を実証したものと言える。
Stats
提案手法によりCLIPモデルのARO-Relationタスクの精度が23.7%向上した。
提案手法によりCLIPモデルのARO-Attributeタスクの精度が13.5%向上した。
提案手法によりCLIPモデルのVALSEタスクの精度が7.2%向上した。
提案手法によりCLIPモデルのVL-CheckListタスクの精度が5.9%向上した。
提案手法によりCLIPモデルのSugarCrepeタスクの精度が12.1%向上した。
Quotes
"Vision-Language Models (VLMs), such as CLIP, exhibit strong image-text comprehension abilities, facilitating advances in several downstream tasks such as zero-shot image classification, image-text retrieval, and text-to-image generation."
"However, the compositional reasoning abilities of existing VLMs remains subpar. The root of this limitation lies in the inadequate alignment between the images and captions in the pretraining datasets."