Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
報酬の過剰最適化
報酬の過剰最適化を軽量不確実性推定と敵対的ポリシーオプティマイゼーションによって克服する
Adversarial Policy Optimization(AdvPO)は、報酬の過剰最適化問題に取り組む新しいアプローチであり、軽量な不確実性推定を活用して効果的にこの問題を緩和します。
1