本論文は、モデルベースの内発的報酬を用いたオフポリシー学習アルゴリズムを提案し、連続制御タスクにおける効率的な探索を実現する。
動力学モデルの対称性を活用することで、非対称な報酬関数を持つ環境においても、より効率的にモデルを学習できる。