プリミティブ情報に基づく好み学習を用いて報酬モデルを学習し、その報酬モデルを使って階層的な replay buffer の報酬を再ラベリングすることで、階層強化学習における非定常性の問題を解決する。また、プリミティブ情報に基づく正則化を行うことで、上位レベルの方策が下位レベルの方策に対して達成可能なサブゴールを生成するようにする。