RMDPsは、パラメータ不確実性下での逐次意思決定のための広く使用されるフレームワークである。本論文では、割引リターン以外のRMDPsに関する基本的な結果を証明し、平均最適性とブラックウェル最適性に焦点を当てる。平均最適ポリシーは常に静的かつ決定論的であり、驚くべきことに、歴史依存型(マルコフ)ポリシーが平均リターン基準で静的ポリシーよりも優れていることが示されている。さらに、sa-rectangular RMDPsでは近似ブラックウェル最適ポリシーが常に存在し、しかしブラックウェル最適ポリシーが存在しない場合もあることが示されている。また、平均とブラックウェル最適性の関連性や最適平均リターンを計算するためのアルゴリズムなども議論されている。これらの新しい結果はs-rectangular RMDPsに対しても興味深い洞察を提供している。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Julien Grand... ที่ arxiv.org 03-08-2024
https://arxiv.org/pdf/2312.03618.pdfสอบถามเพิ่มเติม