本論文は、大規模言語モデルを人間の好みに合わせて自己改善させる新しいアルゴリズム「Direct Nash Optimization (DNO)」を提案する。DNOは、報酬最大化の枠組みに依存せず、一般的な好みを直接的に最適化することで、より柔軟で安定した性能向上を実現する。