核心概念
大規模言語モデル(LLM)の事後学習における、教師ありファインチューニング(SFT)と選好学習(RLHFまたはDPO)を逐次的に行う従来の手法は、一方の学習がもう一方の学習によって忘却されるため、両者のトレードオフの観点から最適ではない。本稿では、この問題に対処するため、SFTとDPOの同時学習フレームワークを提案する。
要約
大規模言語モデルの教師ありファインチューニングと選好学習における忘却の軽減
本稿は、大規模言語モデル(LLM)の事後学習における、教師ありファインチューニング(SFT)と選好学習(RLHFまたはDPO)のトレードオフに関する研究論文である。
本研究は、LLMの事後学習において、SFTと選好学習を逐次的に行う従来の手法が、一方の学習効果を忘却してしまう問題に対処し、両方の学習効果を最大化する新しい学習フレームワークを提案することを目的とする。
本稿では、SFTとDPOの同時学習フレームワークとして、ALRIGHTとMAXRIGHTの2つのアルゴリズムを提案する。ALRIGHTは、両方の目的関数を交互に最適化することで、指定されたトレードオフ比を実現する。MAXRIGHTは、各反復において、より最適化が進んでいない目的関数を適応的に選択して最適化する。