本論文では、オフラインリインフォースメントラーニングにおける分布のずれの問題に取り組むため、新しい不確実性定量化手法であるGPC(Grid-Mapping Pseudo-Count)を提案している。
GPC は以下の手順で動作する:
理論的には、GPC は連続状態行動空間においても、より少ない前提条件で適切な不確実性制約を得ることができることを示している。
実験では、GPC-SACアルゴリズムを提案し、D4RLベンチマークデータセットで評価した。結果、GPC-SACは他の手法と比べて優れた性能を示し、計算コストも低いことが確認された。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yi Shen,Hany... klo arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02545.pdfSyvällisempiä Kysymyksiä