Core Concepts
言語モデルの特定の能力を取り除くための効果的な方法を紹介する。
Abstract
大規模言語モデル(LLMs)における特定の能力を取り除くための選択的プルーニング手法が提案されています。この手法は、忘れるべきデータセットと保持すべきデータセットに対するニューロンの相対的重要性に基づいてニューロンを選択的に削除します。実験結果では、プルーニングが精度やパープレキシティに与える影響が示されており、低コストで効果的な基準として機能します。また、フィードフォワードニューロンを剪定することが、注意ニューロンよりも選択性が高いことが示されています。この手法は迅速であり、将来の研究と比較するための優れた基準を提供します。
Stats
プルーニングステップ数:50回
プルーニング率:2%
最大精度差:FFニューロン(59.6%)、Attentionニューロン(28.4%)
GPT2-Large: トキシック率0.3%、平均トキシック度0.02、WikiTextパープレキシティ18.5
LLaMA 2 7B: トキシック率0.0%、平均トキシック度0.03、Zero-shot MMLU精度33.0%
Quotes
"Machine unlearning aims to selectively remove information corresponding to specific data points without retraining the entire model from scratch."
"Pruning feed-forward neurons is more selective than pruning attention neurons."
"Our method is effective as measured in differential drop in accuracy and as measured in perplexity."