本論文は、大規模言語モデル(LLM)の微調整における課題である「catastrophic forgetting」(既存の知識の忘却)を解決するための手法「Half Fine-Tuning(HFT)」を提案している。
LLMの微調整では、事前学習済みのモデルにさらに学習を行うことで、様々なタスクに対応できるようになる。しかし、この過程で既存の知識が失われてしまう問題がある。
提案するHFTでは、微調整時にモデルパラメータの半分を凍結し、残りの半分のみを更新する。これにより、既存の知識を維持しつつ、新しい能力も獲得できる。
実験の結果、HFTはパラメータの選択方法に依存せず、既存の知識を保持しつつ新しい能力も獲得できることが示された。また、HFTは従来の全パラメータ微調整(FFT)と比べて、約30%の学習時間の短縮も実現できる。
HFTは既存のファインチューニングフレームワークに簡単に組み込めるプラグアンドプレイ型の手法であり、LLMの微調整における新しいパラダイムとなる可能性がある。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Tingfeng Hui... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18466.pdfDeeper Inquiries