Kernekoncepter
大規模言語モデルの専門性を高めつつ、汎用性を維持する方法を提案する。
Resumé
本論文は、大規模言語モデル(LLM)の専門性と汎用性のバランスを取る方法を提案している。
まず、LLMの専門性を高めるためのファインチューニングは、しばしば「カタストロフィック忘却」を引き起こし、汎用性を損なう問題がある。
そこで本論文では、CoFiTuneと呼ばれる粗粒度から細粒度のフレームワークを提案する。
粗粒度レベルでは、専門性を高めつつ汎用性への影響を最小限に抑えるために、特定のモジュール(特にFFNモジュール)を選択的に更新する。
細粒度レベルでは、汎用性への重要度に基づいて、更新の強度を調整するソフトマスク機構を導入する。
実験の結果、提案手法は、ベースラインと比較して、専門性を維持しつつ汎用性を大幅に改善できることを示している。さらに、分析から、LLMの情報処理プロセスに関する洞察も得られている。
Statistik
LLMの専門性を高めるファインチューニングは、しばしば「カタストロフィック忘却」を引き起こし、汎用性を損なう。
提案手法CoFiTuneは、専門性を高めつつ汎用性への影響を最小限に抑えることができる。
CoFiTuneは、ベースラインと比較して、平均で14%の汎用性の改善を達成しつつ、専門性への影響は限定的である。
Citater
"Aligned LLMs showcase remarkable versatility, capable of handling diverse real-world tasks. Meanwhile, aligned LLMs are also expected to exhibit speciality, excelling in specific applications."
"However, fine-tuning with extra data, a common practice to gain speciality, often leads to catastrophic forgetting (CF) of previously acquired versatility, hindering the model's performance across diverse tasks."
"CoFiTune consistently outperforms all baseline methods. Specifically, in the Finance task of 7B model, it exhibits improvements in Uni. scores of 3.7%, 4.3%, and 4.5% compared to L1, LoRA, and V-SoftMask respectively."