本論文は、大規模言語モデル(LLM)の強化学習(RL)における報酬過剰最適化(ROO)の問題に取り組んでいる。ROOは、LLMが報酬関数を過度に最適化し、自然な言語生成から逸脱する現象を指す。
著者らは、デモンストレーション主導の報酬キャリブレーション(RCfD)を提案する。RCfDは、人間のデモンストレーションと報酬モデルを活用し、LLMの出力が人間のデモンストレーションと同程度の報酬を得るよう最適化する。これにより、LLMが報酬モデルを過度に最適化することを防ぎ、より自然な言語生成を促す。
実験では、RCfDが従来手法と同等のタスクパフォーマンスを達成しつつ、ROOを効果的に抑制することを示している。特に、単一報酬最適化と複合報酬最適化の両方で、RCfDの有効性が確認された。
RCfDは、デモンストレーションを活用してLLMの報酬分布を調整することで、ROOを抑制しつつ、タスク遂行能力を維持する。この手法は、複雑な報酬構造を持つ言語タスクにおいて有効であり、ハイパーパラメータチューニングの必要性も低減できる。
To Another Language
from source content
arxiv.org
Djupare frågor