本研究では、準ハイパーボリック割引を用いた強化学習について取り扱っている。
準ハイパーボリック割引は、人間の短期的な即時的な報酬への偏好を捉えることができるが、最適な方策は初期状態に依存し、時間非整合的になる可能性がある。
このため、マルコフ完全均衡(MPE)と呼ばれる方策を見つけることが重要である。MPEは、方策からの逸脱のインセンティブがない安定した方策である。
本研究では、MPEを発見するための初めてのモデルフリーの強化学習アルゴリズムを提案している。このアルゴリズムは2時間スケールのアクター-クリティックアルゴリズムに基づいており、クリティックの更新にはQH Bellman誤差を、アクターの更新にはQH利得関数を用いている。
理論的には、このアルゴリズムの収束先がMPEであることを示している。また、在庫管理問題の数値実験により、提案アルゴリズムがMPEを発見できることを示している。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by S.R. Eshwar,... ที่ arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10583.pdfสอบถามเพิ่มเติม