大規模言語モデルは自然言語処理以外の分野でも優れた性能を発揮しており、最適化問題への適用が期待されている。しかし、言語モデルが数値最適化問題に本当に適しているかは未解明である。本研究では、言語モデルの最適化能力を包括的に評価し、その長所と限界を明らかにする。
本論文は、大規模言語モデルを人間の好みに合わせて自己改善させる新しいアルゴリズム「Direct Nash Optimization (DNO)」を提案する。DNOは、報酬最大化の枠組みに依存せず、一般的な好みを直接的に最適化することで、より柔軟で安定した性能向上を実現する。
BAdam は、ブロック座標最適化フレームワークにAdamを組み込んだ最適化手法であり、大規模言語モデルのメモリ効率の高い全パラメータファインチューニングを可能にする。