Core Concepts
本論文は、事前学習された視覚言語モデルを活用し、学習プロンプトと分布ベースの特徴リプレイを提案することで、少量のデータでも新しいクラスを学習しつつ、既知のクラスの知識を維持する手法を提案する。
Abstract
本論文は、少量クラス増分学習(FSCIL)の課題に取り組むため、事前学習された視覚言語モデル(CLIP)を活用する手法を提案している。
まず、CLIPを用いた単純な零shot評価でも既存手法を大きく上回る性能を示すことを示す。その上で、学習可能なプロンプトを導入し、各セッションの特定の知識を継続的に捉えられるようにする。しかし、新しいセッションでプロンプトを学習すると、過去の知識を忘れてしまう問題がある。
そこで本論文は、各クラスの特徴分布(ガウス分布)を維持し、過去の知識をプロンプト学習時にリプレイすることで、新しい知識を学習しつつ過去の知識も維持する手法を提案する。具体的には、少数の訓練データと文章情報を用いてVAEを学習し、合成特徴を生成することで、各クラスの特徴分布をより正確に推定する。新しいセッションでは、過去クラスの分布から擬似特徴をサンプリングし、現在のセッションの訓練データと組み合わせてプロンプトを最適化する。
提案手法は、既存の少量クラス増分学習手法と比較して、CIFAR-100、mini-ImageNet、CUB-200の各ベンチマークで新しい最高精度を達成している。さらに、より大規模で挑戦的なSUN-397とCUB-200*ベンチマークでも優れた性能を示している。
Stats
少量クラス増分学習タスクでは、新しいクラスの学習データが非常に少ないため、既知のクラスの知識を維持するのが困難である。
提案手法では、各クラスの特徴分布を推定し、過去クラスの擬似特徴をサンプリングすることで、新しい知識を学習しつつ過去の知識も維持できる。
Quotes
"本論文は、事前学習された視覚言語モデルを活用し、学習プロンプトと分布ベースの特徴リプレイを提案することで、少量のデータでも新しいクラスを学習しつつ、既知のクラスの知識を維持する手法を提案する。"
"提案手法は、既存の少量クラス増分学習手法と比較して、CIFAR-100、mini-ImageNet、CUB-200の各ベンチマークで新しい最高精度を達成している。さらに、より大規模で挑戦的なSUN-397とCUB-200*ベンチマークでも優れた性能を示している。"