Core Concepts
大規模言語モデルの豊富な知識を活用することで、低shot画像分類の性能を向上させることができる。
Abstract
本論文では、低shot画像分類の課題に対して、大規模言語モデル(LLM)の知識を活用する手法LLaMPを提案している。
低shot画像分類では、訓練画像が限られているため、テキストラベルのみを情報源とせざるを得ない。一方、LLMは豊富な百科事典的知識を持っているため、これを活用することで、テキストラベルだけでは不足する情報を補完できる。
具体的には、LLaMPでは、LLMを用いてクラス固有の情報豊富なプロンプトを生成し、CLIP text encoderの入力として活用する。これにより、低shot画像分類の性能が向上する。
実験では、11のデータセットにおいて、ゼロショット汎化とフューショット分類の両方で、従来手法を上回る性能を示している。特に、細粒度分類タスクでの性能向上が顕著である。
Stats
「Yak-40」は三エンジン配置の旅客機で、大きな客室窓と傾斜したノーズが特徴的な外観を持つ。
「Chevrolet Corvette ZR1 2012」は特徴的な外観を持つ車種である。