Linnk AIをダウンロード
•
AIリサーチアシスタント
>
サインイン
インサイト
-
頑健な平均化を用いた正則化Q学習
未知の環境下での頑健な平均化を用いた正則化Q学習
提案手法の2RA Q学習は、既存のQ学習手法の弱点である推定バイアスを制御可能な形で解決する。分布ロバスト推定量を用いることで、過大推定バイアスや過小推定バイアスのレベルを調整できる。
1