Baixe o Linnk AI
•
Assistente de Pesquisa
>
Entrar
insight
-
大規模言語モデルの報酬最適化
大規模言語モデルの報酬過剰最適化への対処: デモンストレーション主導の強化学習
デモンストレーション主導の報酬キャリブレーション(RCfD)は、大規模言語モデルの報酬過剰最適化を効果的に抑制しつつ、タスクパフォーマンスを維持する。
1