本研究では、準ハイパーボリック割引を用いた強化学習について取り扱っている。
準ハイパーボリック割引は、人間の短期的な即時的な報酬への偏好を捉えることができるが、最適な方策は初期状態に依存し、時間非整合的になる可能性がある。
このため、マルコフ完全均衡(MPE)と呼ばれる方策を見つけることが重要である。MPEは、方策からの逸脱のインセンティブがない安定した方策である。
本研究では、MPEを発見するための初めてのモデルフリーの強化学習アルゴリズムを提案している。このアルゴリズムは2時間スケールのアクター-クリティックアルゴリズムに基づいており、クリティックの更新にはQH Bellman誤差を、アクターの更新にはQH利得関数を用いている。
理論的には、このアルゴリズムの収束先がMPEであることを示している。また、在庫管理問題の数値実験により、提案アルゴリズムがMPEを発見できることを示している。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések