Core Concepts
大規模言語モデルにおけるニューロンの重要性と、個々のニューロンに焦点を当てた微調整手法であるNeFTの効果的な性能向上を示す。
Abstract
大規模言語モデル(LLMs)におけるニューロンの役割と振る舞いが多様であり、一部のニューロンが異なるデータセット間で活性化されず、このスパース性はタスク固有能力と正の相関関係があることが明らかになっている。
伝統的な微調整方法は全パラメータを使用するが、計算コストが高く必要ない可能性もある。
Neuron-Level Fine-Tuning(NeFT)は個々のニューロンまでパラメータトレーニングを細分化し、より精密かつ効率的なモデル更新を実現する新しいアプローチである。
実験結果は、NeFTが全パラメータ微調整や他の手法を上回り、さまざまな設定で優れた結果を示している。
導入
LLMs内のニューロン分析から得られた知見に基づき、NeFTアプローチが提案された。
NLIタスク用に感度の高いニューロンを特定し、そのトレーニング方法と実験結果が紹介されている。
メソッド論文
PEFT技術やAdapter、LoRAなど他手法と比較しつつ、NeFTアプローチによって達成された成果や洞察が述べられている。
実験結果
機械翻訳やクロスリンガルテキスト要約タスクにおけるNeFTアプローチの優れた性能と汎化能力が示されている。
LoRAとの比較では、NeFTが多くの場面で優れた結果を示している。
Stats
Neurons identified from the original dataset: NeFT3%, NeFT6%, NeFT9%
Performance comparison with LoRA at similar trainable parameter scales