本論文では、低shot画像分類の課題に対して、大規模言語モデル(LLM)の知識を活用する手法LLaMPを提案している。
低shot画像分類では、訓練画像が限られているため、テキストラベルのみを情報源とせざるを得ない。一方、LLMは豊富な百科事典的知識を持っているため、これを活用することで、テキストラベルだけでは不足する情報を補完できる。
具体的には、LLaMPでは、LLMを用いてクラス固有の情報豊富なプロンプトを生成し、CLIP text encoderの入力として活用する。これにより、低shot画像分類の性能が向上する。
実験では、11のデータセットにおいて、ゼロショット汎化とフューショット分類の両方で、従来手法を上回る性能を示している。特に、細粒度分類タスクでの性能向上が顕著である。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zhaoheng Zhe... a las arxiv.org 04-04-2024
https://arxiv.org/pdf/2312.04076.pdfConsultas más profundas