準ハイパーボリック割引は人間の短期的な即時的な報酬への偏好を捉えることができるが、最適な方策は初期状態に依存し、時間非整合的になる可能性がある。このため、マルコフ完全均衡(MPE)と呼ばれる方策を見つけることが重要である。本研究では、MPEを発見するための初めてのモデルフリーの強化学習アルゴリズムを提案し、その収束性を示した。