Core Concepts
事前学習モデルの中間層表現を活用することで、ドメイン変化に対するロバスト性が向上し、特に低データ環境下での継続学習性能が向上する。
Abstract
本論文では、継続学習(CL)問題に取り組むため、事前学習モデルの中間層表現を活用する新しいアプローチ「LayUP」を提案している。従来のCLアプローチは最終層の表現のみを使用していたが、LayUPは複数の中間層の表現を組み合わせることで、ドメイン変化に対するロバスト性を高めている。
具体的には以下の手順を踏む:
事前学習モデルの最後のk層の表現を連結して使用する
連結した表現のグラム行列を計算し、クラスプロトタイプを正則化する
最初のタスクでパラメータ効率的な微調整を行う
LayUPは、4つのCILベンチマーク、3つのDILベンチマーク、6つのOCLベンチマークで最先端手法を上回る性能を示した。特に、ドメイン変化が大きく、データ量が少ないタスクで顕著な性能向上が見られた。これは、中間層表現がドメイン不変な特徴を捉えており、低データ環境下でも有効に機能することを示唆している。
本手法は概念的に単純であり、任意の事前学習モデルに適用可能で、メモリ使用量と計算コストも大幅に削減できる。事前学習モデルの中間層表現を活用することで、継続学習の性能を大きく向上させられることが示された。
Stats
事前学習モデルの中間層表現を活用することで、ドメイン変化の大きいタスクでは最終層表現を使う場合に比べて、最大で39%の性能向上が得られた。
低データ環境下でも、中間層表現を活用することで、最大で22%の性能向上が得られた。
Quotes
"事前学習モデルの中間層表現は、ドメイン不変な特徴を捉えており、低データ環境下でも有効に機能する。"
"LayUPは概念的に単純であり、任意の事前学習モデルに適用可能で、メモリ使用量と計算コストも大幅に削減できる。"