Core Concepts
大規模な事前学習モデルを新しいデータで更新する際に、過去のデータを効率的に活用することで、忘却を最小限に抑えつつ計算コストも抑えられる。
Abstract
本論文では、大規模な事前学習モデルを新しいデータで更新する際の継続学習の問題に取り組んでいる。従来の継続学習手法では、過去のデータを一部しか保持できないため、新しいデータで更新すると過去の知識を忘れてしまう(catastrophic forgetting)という課題があった。
本手法では、過去のデータを全て保持できることを前提とし、新しいデータとの関係性に応じて過去のデータから最適な部分を選択的にリプレイすることで、忘却を抑えつつ計算コストも抑えられる適応的なメモリリプレイ手法を提案している。
具体的には、過去のデータを複数のクラスタに分割し、各クラスタの忘却度合いを多腕バンディットの手法で推定する。そして、Boltzmann samplingを用いて、現在のタスクに最適な過去のデータを動的に選択してリプレイする。これにより、忘却を最小限に抑えつつ、計算コストも大幅に削減できることを示している。
提案手法は、ビジョンタスクと言語モデリングタスクの両方で評価され、従来手法と比べて優れた性能を示している。特に、計算コストを抑えつつ忘却を大幅に削減できる「0コスト」の手法が注目される。
Stats
事前学習モデルの更新には膨大なコストがかかるが、過去のデータを完全に無視すると性能が大幅に低下する。
提案手法では、過去のデータから最適な部分を選択的にリプレイすることで、忘却を最小限に抑えつつ計算コストも大幅に削減できる。
Quotes
"Foundation Models (FMs) have become the hallmark of modern AI, however, these models are trained on massive data, leading to financially expensive training."
"Neglecting past data during EPT is prone to the issue of catastrophic forgetting [21], where models updated with new data tend to underperform on previously seen data."