本論文では、オフラインリインフォースメントラーニングにおける分布のずれの問題に取り組むため、新しい不確実性定量化手法であるGPC(Grid-Mapping Pseudo-Count)を提案している。
GPC は以下の手順で動作する:
理論的には、GPC は連続状態行動空間においても、より少ない前提条件で適切な不確実性制約を得ることができることを示している。
実験では、GPC-SACアルゴリズムを提案し、D4RLベンチマークデータセットで評価した。結果、GPC-SACは他の手法と比べて優れた性能を示し、計算コストも低いことが確認された。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Yi Shen,Hany... às arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02545.pdfPerguntas Mais Profundas