Core Concepts
大規模言語モデルは継続的な微調整の過程で、以前に学習した一般知識を忘却してしまう傾向がある。モデルのスケール、アーキテクチャ、事前の一般的な指示学習が、この忘却問題に影響を与える。
Abstract
この研究は、大規模言語モデル(LLM)の継続的な指示微調整中に発生する顕著な忘却現象(Catastrophic Forgetting)を実証的に分析しています。
具体的には以下の点を明らかにしています:
LLMは、継続的な指示微調整の過程で、以前に学習した一般知識を忘却する傾向がある。
忘却の程度は、ドメイン知識、推論能力、読解comprehensionなどの観点で異なる。読解comprehensionの能力が最も大きく低下する。
モデルのスケールが大きくなるほど、忘却の程度が深刻化する。初期性能が高いほど、後の性能低下も大きくなる。
デコーダのみのモデル(BLOOMZ)は、エンコーダ-デコーダモデル(mT0)に比べ、継続微調整時の知識保持が良好である。
事前の一般的な指示学習(LLAMA→ALPACA)は、後の継続微調整時の忘却を軽減する効果がある。
興味深いことに、LLMの偏見(ジェンダー、人種など)は、継続微調整の過程で緩和される傾向がある。
この研究結果は、LLMの実用化において重要な示唆を与えるものです。LLMの知識保持と忘却問題に注意を払い、適切な対策を講じることが、LLMの信頼性と一貫性のある性能を確保するために不可欠です。
Stats
継続微調整後の BLOOMZ-7.1bのドメイン知識(MMLU)の性能は、初期モデルから18.37%低下した。
継続微調整後の BLOOMZ-7.1bの推論能力(Reasoning)の性能は、初期モデルから13.62%低下した。
継続微調整後の BLOOMZ-7.1bの読解comprehension(RACE)の性能は、初期モデルから26.75%低下した。