本研究は、状態のみの実証データを活用して、スパース報酬環境における長期的な信用割当を近似的に実現する簡単かつ効率的なアルゴリズムを提案する。提案手法は、実証データの状態分布情報と関連トラジェクトリの報酬信号を融合することで、方策最適化を促進する。