本文提出了两种算法框架ROAM和ROOM,分别用于离线强化学习中的离线策略评估和离线策略优化。这些框架通过将中值-均值方法与离线强化学习相结合,能够有效地处理重度尾部分布的奖励,并提供对价值函数估计的不确定性量化。理论分析和大量实验结果表明,这些框架在处理重度尾部分布奖励方面优于现有方法。