Core Concepts
異なるタスクを順次学習する際に発生する過度の忘却を軽減するために、トランスフォーマーネットワークの各層に適応的な学習率を割り当てる手法を提案する。
Abstract
本論文では、トランスフォーマーネットワークにおける過度の忘却の問題に取り組む。
事前学習済みの大規模言語モデルをさまざまなタスクに適用する際、新しいタスクを学習する過程で以前のタスクの知識を失ってしまう問題が発生する(過度の忘却)。
提案手法では、トランスフォーマーネットワークの各層に異なる学習率を割り当てることで、この問題を軽減する。
層ごとの最適な学習率分布をベイズ最適化により自動的に見つける。
複数のデータセットペアで最適化した学習率分布を組み合わせることで、未知のデータセットにも一般化できる手法(BERTcL combined)を提案する。
実験の結果、提案手法はベースラインや既存手法(EWC)と比べて、過度の忘却を大幅に軽減できることを示した。
Stats
事前学習済みのBERTモデルを使用し、5エポックまたは3エポックの微調整を行った。
バッチサイズは16、最大系列長は256トークンとした。
アダム最適化器を使用し、10%の期間でwarm startを行うコサイン減衰スケジュールを適用した。