本論文は、言語モデルのアライメントにおける自己学習の文脈で、様々な正則化手法の効果を調査したものである。
まず、従来の強化学習ベースのアライメント手法では人手によるデータ収集が必要だったが、自己学習ベースのSPIN手法ではそれが不要となる。しかし、SPINにはパフォーマンスの不安定性という課題があった。
そこで本研究では、この課題に対処するため、2つの観点から取り組んでいる。
KL正則化を導入し、基準モデルに近接した学習を行う。これにより、基準モデルに埋め込まれた望ましい特性からの逸脱を抑制できる。
過去の学習履歴を活用したサンプリングを行う。これにより、学習プロセスの安定性を高めることができる。具体的には、fictitious playと呼ばれる手法を用いて、過去の全ての学習モデルの平均的な振る舞いに対抗させる。
これらの手法を組み合わせたα-SPINアルゴリズムを提案し、MT-Benchやオープンランゲージモデルのベンチマークで評価を行った。その結果、KL正則化やサンプリングの工夫が、モデルの性能向上に寄与することが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Reda Alami,A... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04291.pdfDeeper Inquiries