Ladda ner Linnk AI
•
Forskningsassistent
>
Logga in
insikt
-
大規模言語モデルの報酬最適化
大規模言語モデルの報酬過剰最適化への対処: デモンストレーション主導の強化学習
デモンストレーション主導の報酬キャリブレーション(RCfD)は、大規模言語モデルの報酬過剰最適化を効果的に抑制しつつ、タスクパフォーマンスを維持する。
1