Core Concepts
提出了一种基于不确定性的多任务数据共享(UTDS)方法,在不进行数据选择的情况下共享整个数据集。通过基于集成的不确定性量化,我们执行悲观值迭代,为统一的单任务和多任务离线强化学习框架提供了支持。
Abstract
本文提出了一种基于不确定性的多任务数据共享(UTDS)方法,用于提高离线强化学习的性能。
首先,UTDS通过标准的多任务数据共享获得混合数据集,然后训练一个Q函数集合来提供不确定性量化。通过测量不确定性,我们执行悲观值迭代,将不确定性作为惩罚因子用于离线训练。这种不确定性量化考虑了混合数据集的数据覆盖范围,受行为策略和学习策略之间的偏差的影响较小。
此外,我们还惩罚了混合数据集支持范围内的异常动作,以提高学习策略在异常区域的性能。UTDS的一个关键因素是,即使数据共享不能提高最优策略的数据覆盖,它也不会降低UTDS的学习结果。这使UTDS与依赖于适当数据选择的CDS方法有本质的不同。
我们还提供了线性MDP环境下的理论分析,结果表明UTDS方法的最优性差距仅与共享数据集对最优策略的预期数据覆盖有关,从而解决了数据共享中的分布偏移问题。
实验结果表明,UTDS在具有挑战性的多任务数据共享问题中优于现有的最先进方法。
Stats
共享数据集可以减小状态-动作对的不确定性。
共享数据集的预期数据覆盖范围决定了UTDS方法的最优性差距。
Quotes
"即使数据共享不能提高最优策略的数据覆盖,它也不会降低UTDS的学习结果。"
"UTDS方法的最优性差距仅与共享数据集对最优策略的预期数据覆盖有关,从而解决了数据共享中的分布偏移问题。"