核心概念
提案手法のGPC(Grid-Mapping Pseudo-Count)は、静的データセットの情報を利用して連続状態行動空間を離散化し、擬似カウントに基づいて不確実性を定量化する。これにより、より少ない前提条件で適切な不確実性制約を得ることができる。
摘要
本論文では、オフラインリインフォースメントラーニングにおける分布のずれの問題に取り組むため、新しい不確実性定量化手法であるGPC(Grid-Mapping Pseudo-Count)を提案している。
GPC は以下の手順で動作する:
- 静的データセットの状態行動空間の最大値と最小値を用いて、状態空間と行動空間をグリッド化する。
- グリッド化された状態行動ペアの擬似カウントを計算する。
- 擬似カウントに基づいて不確実性を定量化し、Q値の過大評価を抑制する。
理論的には、GPC は連続状態行動空間においても、より少ない前提条件で適切な不確実性制約を得ることができることを示している。
実験では、GPC-SACアルゴリズムを提案し、D4RLベンチマークデータセットで評価した。結果、GPC-SACは他の手法と比べて優れた性能を示し、計算コストも低いことが確認された。
統計資料
状態空間と行動空間の最大値と最小値を用いてグリッド化を行う
グリッド化された状態行動ペアの擬似カウントを計算する
擬似カウントに基づいて不確実性を定量化し、Q値の過大評価を抑制する