核心概念
本研究では、ガウシアンプロセスを用いて、CLIP及び他の事前学習モデルを統合的に活用することで、低shot画像分類の性能を向上させる。
要約
本研究は、低shot画像分類の課題に取り組むものである。従来の手法では、CLIP等の単一の事前学習モデルを活用するものが多かったが、それらでは他の事前学習モデルが持つ補完的な知識を活用できないという課題があった。
本研究では、ガウシアンプロセスを用いることで、CLIP及び複数の事前学習モデルの知識を統合的に活用する手法を提案する。具体的には、ガウシアンプロセスのカーネル関数にCLIPや他の事前学習モデルに基づく深層カーネルを組み合わせ、また、CLIPの zero-shot分類器を平均関数に組み込むことで、事前知識を効果的に取り入れている。
提案手法は、ImageNetを含む複数の標準ベンチマークデータセットで、既存の手法を上回る性能を示した。また、提案手法は、out-of-distribution (OOD)データに対する頑健性や、予測の不確実性推定の質が高いことも確認された。さらに、モデルの校正性についても優れた結果が得られた。
以上より、本研究は、ベイズ的手法を活用することで、事前学習モデルの知識を効果的に統合し、低shot画像分類の性能を向上させることに成功した。
統計
低shot学習では、少数の訓練サンプルでも高い分類精度を達成できる。
提案手法は、ImageNetデータセットにおいて、1-shot、2-shot、4-shot、8-shot、16-shotの各設定で、既存手法を上回る分類精度を示した。
引用
"低shot画像分類は、コンピュータビジョンにおける基本的な課題であり、CLIP等の大規模なビジョン-言語モデルの登場により、この分野の研究は大きく前進した。"
"しかし、ほとんどの既存のCLIP ベースの手法では、CLIP以外の事前学習モデルを効果的に組み込む柔軟性が欠けている。"
"本研究では、ガウシアンプロセスに基づく単純かつ効果的な確率モデルアンサンブルフレームワークを提案し、この課題に取り組む。"