本論文では、低shot画像分類の課題に対して、大規模言語モデル(LLM)の知識を活用する手法LLaMPを提案している。
低shot画像分類では、訓練画像が限られているため、テキストラベルのみを情報源とせざるを得ない。一方、LLMは豊富な百科事典的知識を持っているため、これを活用することで、テキストラベルだけでは不足する情報を補完できる。
具体的には、LLaMPでは、LLMを用いてクラス固有の情報豊富なプロンプトを生成し、CLIP text encoderの入力として活用する。これにより、低shot画像分類の性能が向上する。
実験では、11のデータセットにおいて、ゼロショット汎化とフューショット分類の両方で、従来手法を上回る性能を示している。特に、細粒度分類タスクでの性能向上が顕著である。
翻譯成其他語言
從原文內容
arxiv.org
深入探究