ดาวน์โหลด Linnk AI
•
ผู้ช่วยวิจัย
>
ลงชื่อเข้าใช้
ข้อมูลเชิงลึก
-
一貫性のあるオフポリシー評価のための抽象報酬プロセス
連続状態空間のMDPにおける一貫性のある オフポリシー評価のための抽象報酬プロセスの活用
複雑な連続状態空間のMDPから抽象化された離散状態空間の抽象報酬プロセス(ARP)を構築し、オフポリシーデータから一貫性のある性能評価を行う。
1