本文研究了在大状态空间下进行离线策略评估(OPE)的挑战,并提出了一种基于状态抽象的方法来解决这一问题。主要贡献包括:
定义了一系列针对OPE的不相关性条件,并推导了一个基于时间反向马尔可夫决策过程(MDP)的不相关性条件,以实现重要性采样比率的不相关性。
提出了一种新的迭代压缩状态空间的方法,称为深度抽象状态(DSA)。该方法通过交替进行正向和反向抽象,逐步压缩状态空间维度,大幅降低了OPE的样本复杂度。
证明了在所提出的抽象状态空间上应用各种OPE方法的Fisher一致性。
总的来说,本文提出的DSA方法能够有效地减少OPE的样本复杂度,从而提高离线策略评估的准确性。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы