核心概念
大規模な言語モデルによる細粒度カテゴリの記述を活用することで、視覚言語モデルのゼロショット分類性能を大幅に向上させることができる。
要約
本研究では、視覚言語モデル(VLM)のゼロショット分類性能を改善するために、大規模言語モデル(LLM)による細粒度カテゴリの記述を活用する手法を提案している。
具体的には以下の通り:
- LLMを用いて、各カテゴリの視覚的特徴、生息地、地理的分布などの詳細な記述を自動生成する。
- これらの記述をVLMの学習に活用することで、細粒度カテゴリのゼロショット分類性能を大幅に向上させる。
- 生息地や地理的分布の情報が視覚的特徴と相補的に機能し、分類性能を高めることを示す。
- 提案手法は、訓練データと評価データの間で大きな分布シフトがある場合でも高い汎化性を示す。
- 提案手法は、従来手法と比べて大幅な性能向上を達成する。
統計
鳥類の細粒度分類データセットCUBでは、LLMによる生息地情報を活用することで、視覚情報のみを使う場合に比べて4%以上の精度向上が得られた。
植物の細粒度分類データセットFlowers102でも、視覚情報と生息地情報を組み合わせることで最高の精度が得られた。
引用
"LLMsは正確に細粒度カテゴリの外観、生息地、地理的分布を記述することができ、これらの情報を活用することで、VLMのゼロショット分類性能を大幅に向上させることができる。"
"提案手法は、訓練データと評価データの間で大きな分布シフトがある場合でも高い汎化性を示す。例えば、鳥類カテゴリを除いたiNaturalistデータセットで学習した場合でも、CUBデータセットの性能が向上した。"