Core Concepts
言語モデルの微調整(命令チューニングや人間のフィードバックからの強化学習など)は、微調整データ分布外のタスクに対する能力を犠牲にする可能性がある。我々は、言語モデルが暗黙的にプロンプトのタスクを推論しており、微調整がこの推論を微調整データ分布のタスクに偏らせることを仮説する。この仮説に基づき、コンジュゲートプロンプティングを提案し、合成設定でプリトレーニング時の能力を回復できることを示す。
Abstract
本研究は、言語モデルの微調整が引き起こす大規模な忘却の効果を理解することを目的としている。
まず、線形回帰の合成設定を用いて実験を行った。プリトレーニング時には広範なタスク分布(Dcont)と特定のタスク集合(Ddisc)の両方を学習するが、Ddisc上の性能を向上させるための微調整は、Dcont上の性能を犠牲にする。
この現象を理解するため、モデルが暗黙的にタスクを推論していると仮定した。微調整によってこの推論が微調整データ分布のタスクに偏るため、プリトレーニング時の能力が抑制されると考えられる。
そこで、プロンプトをDdisc分布からより離れるように変換する「コンジュゲートプロンプティング」を提案した。これにより、微調整後のモデルでもプリトレーニング時の能力を一部回復できることを示した。
次に、この理解を実際の大規模言語モデルに適用した。命令チューニングではin-context学習能力が抑制されるが、プロンプトを非英語に変換することで回復できることを示した。また、コード微調整後の自然言語推論能力の低下や、安全性微調整後の有害コンテンツ生成能力の抑制についても同様の現象が観察された。
以上より、微調整による大規模な忘却は、モデルの暗黙的なタスク推論が変化したことが主な原因であり、コンジュゲートプロンプティングによってある程度回復できることが示された。
Stats
微調整後のモデルは、微調整データ分布に近いタスクでは性能が向上するが、遠いタスクでは性能が大幅に低下する。
微調整後のモデルの性能低下は、プロンプトがDdisc分布からの尤度が低いほど大きい。
コンジュゲートプロンプティングにより、微調整後のモデルでもプリトレーニング時の能力の一部を回復できる。
Quotes
"言語モデルは暗黙的にプロンプトのタスクを推論しており、微調整がこの推論を微調整データ分布のタスクに偏らせる可能性がある。"
"コンジュゲートプロンプティングを用いることで、微調整後のモデルでもプリトレーニング時の能力の一部を回復できる。"