Tải xuống Linnk AI
•
Trợ lý nghiên cứu
>
Đăng nhập
thông tin chi tiết
-
報酬の過剰最適化
報酬の過剰最適化を軽量不確実性推定と敵対的ポリシーオプティマイゼーションによって克服する
Adversarial Policy Optimization(AdvPO)は、報酬の過剰最適化問題に取り組む新しいアプローチであり、軽量な不確実性推定を活用して効果的にこの問題を緩和します。
1