Core Concepts
自己学習を通じた言語モデルのアライメントにおいて、様々な正則化手法の効果を調査した。KL正則化や過去の学習履歴を活用したサンプリングなどの手法が、モデルの性能向上に寄与することを示した。
Abstract
本論文は、言語モデルのアライメントにおける自己学習の文脈で、様々な正則化手法の効果を調査したものである。
まず、従来の強化学習ベースのアライメント手法では人手によるデータ収集が必要だったが、自己学習ベースのSPIN手法ではそれが不要となる。しかし、SPINにはパフォーマンスの不安定性という課題があった。
そこで本研究では、この課題に対処するため、2つの観点から取り組んでいる。
KL正則化を導入し、基準モデルに近接した学習を行う。これにより、基準モデルに埋め込まれた望ましい特性からの逸脱を抑制できる。
過去の学習履歴を活用したサンプリングを行う。これにより、学習プロセスの安定性を高めることができる。具体的には、fictitious playと呼ばれる手法を用いて、過去の全ての学習モデルの平均的な振る舞いに対抗させる。
これらの手法を組み合わせたα-SPINアルゴリズムを提案し、MT-Benchやオープンランゲージモデルのベンチマークで評価を行った。その結果、KL正則化やサンプリングの工夫が、モデルの性能向上に寄与することが示された。
Stats
基準モデルπbaseとの幾何平均混合モデルπrefを用いることで、基準モデルに近接した学習が可能となる。
過去の全ての学習モデルの平均的な振る舞いに対抗させることで、学習プロセスの安定性が高まる。