Core Concepts
大規模事前学習ビジョンおよび言語トランスフォーマーは、少量のサンプルでも新しいクラスを効果的に学習できる。
Abstract
本論文は、大規模事前学習ビジョンおよび言語トランスフォーマーを用いた少量ショット増分学習(FSCIL)の新しい枠組みを提案している。
まず、大規模モデルをそのまま適用すると、過度の忘却と過適合の問題が生じることを示している。そこで、以下の3つの新しい手法を提案している:
事前学習知識微調整(PKT): 事前学習モデルの一部の層と2種類のプロンプトを選択的に微調整することで、ドメイン固有の知識を効果的に獲得しつつ、事前学習知識も保持する。
エントロピーベースの発散損失(LED): ビジョントークンの識別能力を高めることで、基本セッションでの表現学習を強化する。
意味知識蒸留損失(LSKD): 事前学習言語モデルから得られる言語埋め込みを活用し、ビジュアル特徴表現に有用な意味的知識を蒸留する。
これらの手法により、大規模事前学習モデルをFSCILタスクに効果的に適用できることを示している。実験結果では、提案手法が既存手法を大幅に上回る性能を達成している。
Stats
基本セッションでは十分なデータがあるが、増分セッションでは各クラスに少数のサンプルしかない。
大規模事前学習モデルを直接適用すると、過度の忘却と過適合の問題が生じる。
提案手法のPKTは、事前学習知識を保持しつつ、ドメイン固有の知識も効果的に獲得できる。
提案手法のLEDは、基本セッションでの表現学習を強化する。
提案手法のLSKDは、事前学習言語モデルから有用な意味的知識を蒸留する。
Quotes
"大規模事前学習モデルのようなビジョンおよび言語トランスフォーマーは、優れた少量ショット増分学習者になりうる。"
"提案手法PriViLegeは、既存手法と比べて大幅な性能向上を示している。例えば、CUB200で+9.38%、CIFAR-100で+20.58%、miniImageNetで+13.36%の向上が確認された。"