オフラインリインフォースメントラーニングにおける分布のシフト問題に対して、状態の分解を通じた構成的な保守主義のアプローチを提案する。学習したダイナミクスモデルを活用し、既知の状態空間内に留まるようなアンカーと差分を見つけることで、関数近似器の一般化性能を向上させる。