言語モデルの指示に対する適応性を高めるために、ターゲットの指示分布に合わせて高品質な合成データを生成する。
自己学習を通じた言語モデルのアライメントにおいて、様々な正則化手法の効果を調査した。KL正則化や過去の学習履歴を活用したサンプリングなどの手法が、モデルの性能向上に寄与することを示した。
報酬ハッキングを軽減するために、ベストオブN(BoN)サンプリングに近接正則化を導入した手法を提案する。