Linnk AIをダウンロード
•
AIリサーチアシスタント
>
サインイン
インサイト
-
報酬の過剰最適化
報酬の過剰最適化を軽量不確実性推定と敵対的ポリシーオプティマイゼーションによって克服する
Adversarial Policy Optimization(AdvPO)は、報酬の過剰最適化問題に取り組む新しいアプローチであり、軽量な不確実性推定を活用して効果的にこの問題を緩和します。
1