核心概念
オフラインリインフォースメントラーニングにおける分布のシフト問題に対して、状態の分解を通じた構成的な保守主義のアプローチを提案する。学習したダイナミクスモデルを活用し、既知の状態空間内に留まるようなアンカーと差分を見つけることで、関数近似器の一般化性能を向上させる。
摘要
本論文では、オフラインリインフォースメントラーニングにおける分布のシフト問題に対して、新しい視点からのアプローチを提案している。
まず、状態を「アンカー」と「差分」に分解することで、未知の状態に対する一般化性能を高めるという着想に基づいている。具体的には、以下の手順を踏む:
- 学習済みの逆ダイナミクスモデルを用いて、現在の状態から既知の状態空間内のアンカーに至る軌道を生成する。
- この軌道に沿って、アンカーを見つけるためのポリシーを学習する。
- 状態をアンカーと差分に分解し、バイリニア変換を用いてポリシーと価値関数を近似する。
このように、状態の分解と、既知の状態空間内に留まるようなアンカーの選択を通じて、関数近似器の一般化性能を高めることができる。
提案手法は、既存のオフラインリインフォースメントラーニングアルゴリズムに適用可能であり、D4RLベンチマークにおいて、CQL、IQL、MOPO、MOBILEなどの手法の性能を向上させることが示されている。
統計資料
提案手法は、既存のオフラインリインフォースメントラーニングアルゴリズムの性能を10タスクで向上させた。
アンカー探索ポリシーを学習することで、ヒューリスティックなアンカー選択よりも高い性能が得られた。