オフラインデータセットから高報酬の長期トラジェクトリーを生成し、既存のオフラインリインフォースメントラーニング手法の性能を向上させる。
オフラインリインフォースメントラーニングの問題設定において、ドメインラベル無しデータを効果的に活用する手法を提案する。
オフラインデータから得られる行動方策と目標方策の分布ずれを解消するため、ディフュージョンモデルを用いて目標方策に沿った合成トラジェクトリを生成し、オフラインRLの性能を大幅に向上させる。
オフラインリインフォースメントラーニングにおける分布のシフト問題に対して、状態の分解を通じた構成的な保守主義のアプローチを提案する。学習したダイナミクスモデルを活用し、既知の状態空間内に留まるようなアンカーと差分を見つけることで、関数近似器の一般化性能を向上させる。
提案手法のGPC(Grid-Mapping Pseudo-Count)は、静的データセットの情報を利用して連続状態行動空間を離散化し、擬似カウントに基づいて不確実性を定量化する。これにより、より少ない前提条件で適切な不確実性制約を得ることができる。