核心概念
CGPOは、報酬モデルの限界を補完する複数の制約を導入し、各タスクに最適化された報酬モデル、MoJ、最適化手法を組み合わせることで、LLMの多目的・多制約アラインメントを効果的に実現する。
摘要
本論文は、大規模言語モデル(LLM)のアラインメントにおける新しいアプローチであるCGPO(Constrained Generative Policy Optimization)を提案している。
LLMのアラインメントにおいては、報酬モデルの限界と、タスク間の目的の矛盾が課題となっている。
CGPOでは以下の2つの主要な取り組みを行う:
- 多様な制約を導入し、報酬モデルの限界を補完する
- 制約を満たすサンプルと違反サンプルを分類し、制約を満たすサンプルの生成確率を高める
- 3つの新しい制約付き強化学習最適化手法(CRPG、CODPO、CRRAFT)を提案
- タスク毎に最適化された報酬モデル、MoJ、最適化手法を組み合わせる
- タスクごとに報酬モデル、MoJ、最適化手法を個別に設計
- これにより、タスク間の目的の矛盾を回避し、各タスクの目的を効果的に最適化できる
実験では、一般会話、命令理解、数学/コーディング推論、エンゲージメント、有害意図の5つのタスクで、提案手法が既存手法を大幅に上回る性能を示した。特に、報酬ハッキングの問題に強く、コーディング課題での性能劣化を回避できることが確認された。
統計資料
提案手法CGPOは、既存手法PPOと比較して以下の性能向上を示した:
AlpacaEval-2(一般会話): 7.4%
Arena-Hard(STEM&推論): 12.5%
IFEval(命令理解): 2%
MATH、GSM8K(数学&推論): 2%
HumanEval(コーディング): 5%
ARC Challenge(知識): 2%
引述
"CGPOは報酬ハッキングと極端な多目的最適化の問題を同時に解決し、一般目的LLMのアラインメントを大幅に前進させた。"
"CGPOは、各タスクに最適化された報酬モデル、MoJ、最適化手法を組み合わせることで、タスク間の目的の矛盾を回避し、各タスクの目的を効果的に最適化できる。"