Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
頑健な平均化を用いた正則化Q学習
未知の環境下での頑健な平均化を用いた正則化Q学習
提案手法の2RA Q学習は、既存のQ学習手法の弱点である推定バイアスを制御可能な形で解決する。分布ロバスト推定量を用いることで、過大推定バイアスや過小推定バイアスのレベルを調整できる。
1