本論文は、大規模言語モデル (LLM) の自己改善手法として、Direct Nash Optimization (DNO)を提案している。
主な内容は以下の通り:
従来の強化学習ベースの手法は報酬最大化を前提としており、複雑な好み関係を表現できないという限界がある。そこで本論文ではより一般的な好み関数を直接最適化する手法を提案する。
DNOは、バッチ型のオンポリシーアルゴリズムであり、単純な回帰ベースの目的関数を最適化することで、効率的かつ安定した性能向上を実現する。
DNOは、現在のポリシーに対する自身の勝率を最大化するように学習する。これにより、自己改善を促進する。
理論的には、DNOが平均的にナッシュ均衡に収束することを示し、各反復での近似誤差が抑えられることを証明した。
実験では、7BパラメータのモデルでGPT-4-Turboに対して33%の勝率を達成し、大幅な性能向上を示した。これは、パラメータ数が10倍以上大きい最新モデルを上回る結果である。
様々な設計選択肢の検討から、DNOの重要な設計原則が明らかになった。例えば、大きな勝率差を持つペアのみを使うことの重要性など。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Corby Rosset... às arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03715.pdfPerguntas Mais Profundas