下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
報酬の過剰最適化
報酬の過剰最適化を軽量不確実性推定と敵対的ポリシーオプティマイゼーションによって克服する
Adversarial Policy Optimization(AdvPO)は、報酬の過剰最適化問題に取り組む新しいアプローチであり、軽量な不確実性推定を活用して効果的にこの問題を緩和します。
1