本論文は、大規模モデルの機械学習忘却を効率的かつ正確に実現するLMEraserを提案している。
まず、大規模モデルの訓練データをパブリックデータとプライベートデータに分割する。パブリックデータを用いてモデルのバックボーンを事前学習し、プライベートデータに対してプロンプトチューニングを行う。
プライベートデータは、その多様性に基づいて適応的にクラスタリングされ、各クラスタに対して個別のプロンプトが最適化される。これにより、データ削除の影響が限定的なクラスタのみを再最適化すれば良く、大幅な計算コストの削減が可能となる。
また、バックボーンのパラメータは固定されるため、データ削除時の性能劣化を抑制できる。
実験の結果、LMEraserは従来手法と比べて100倍の計算コスト削減を実現しつつ、高い分類精度を維持できることが示された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor