本文研究了在大状态空间下进行离线策略评估(OPE)的挑战,并提出了一种基于状态抽象的方法来解决这一问题。主要贡献包括:
定义了一系列针对OPE的不相关性条件,并推导了一个基于时间反向马尔可夫决策过程(MDP)的不相关性条件,以实现重要性采样比率的不相关性。
提出了一种新的迭代压缩状态空间的方法,称为深度抽象状态(DSA)。该方法通过交替进行正向和反向抽象,逐步压缩状态空间维度,大幅降低了OPE的样本复杂度。
证明了在所提出的抽象状态空间上应用各种OPE方法的Fisher一致性。
总的来说,本文提出的DSA方法能够有效地减少OPE的样本复杂度,从而提高离线策略评估的准确性。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Meiling Hao,... ที่ arxiv.org 10-03-2024
https://arxiv.org/pdf/2406.19531.pdfสอบถามเพิ่มเติม