本論文は、大規模言語モデルを人間の好みに合わせて自己改善させる新しいアルゴリズム「Direct Nash Optimization (DNO)」を提案する。DNOは、報酬最大化の枠組みに依存せず、一般的な好みを直接的に最適化することで、より柔軟で安定した性能向上を実現する。
大規模言語モデル(LLM)の自己改善における報酬バイアス問題に対処するため、異なる学習反復間の一貫性を活用した正則化手法を導入することで、LLMの選好学習の精度と安定性を向上させる。
大規模言語モデル(LLM)は、自己改善アルゴリズムを自律的に生成・学習することで、人間の介入なしに自己進化できる可能性を秘めている。