Grunnleggende konsepter
Adversarial Policy Optimization(AdvPO)は、報酬の過剰最適化問題に取り組む新しいアプローチであり、軽量な不確実性推定を活用して効果的にこの問題を緩和します。
Sammendrag
この論文では、報酬の過剰最適化問題に対処するための新しい手法であるAdversarial Policy Optimization(AdvPO)が提案されています。論文では、報酬モデルの予測信頼区間を中心とした分布的に堅牢な最適化問題を解決する方法が詳細に説明されています。さらに、Anthropic HHおよびTL;DR要約データセットで行われた包括的な実験により、AdvPOが報酬の過剰最適化問題を効果的に緩和し、実践的なシナリオで改善されたポリシーを示すことが示されています。
Statistikk
本稿は2024年3月8日にarXiv:2403.05171v1 [cs.LG]として公開されました。
Anthropic HHおよびTL;DR要約データセットで包括的な実験が行われました。
Lightweight Uncertainty Estimation(LWUN-s)およびEnsemble of reward models(ENS-s)も比較対象として使用されました。
AdvPO-noRefは参照応答を組み込まないAdvPOの変種です。
実験結果は表形式で提供されており、各モデル間の勝率や敗北率が示されています。
Sitater
"Overoptimization occurs when a reward model serves as an imperfect proxy for human preference."
"Current mitigation strategies focus on penalizing samples with high reward uncertainty during policy training."
"Our work builds upon recent advancements in understanding the representation learning abilities in LLMs."
"The lightweight uncertainty estimation methods are effective in signaling over-optimization."
"AdvPO leverages uncertainty less conservatively compared to previous approaches, making it more likely to contribute to a better policy while mitigating overoptimization."