Kernekoncepter
報酬設計のための階層的なフレームワークを提案する。
Resumé
报酬设计是强化学习中的一个基本但具有挑战性的方面。
提出了一个名为HERON的层次化奖励建模框架,通过对轨迹进行成对比较来训练基于偏好的奖励模型。
实验证明HERON在交通灯控制和代码生成任务中优于现有方法。
在经典控制和机器人控制环境中,HERON表现出色,并且超越了奖励工程基线。
HERON展示了灵活性和适用性,即使在不理想的环境下也能取得合理的政策训练结果。
Statistik
交通灯控制环境中,6个反馈信号具有等级结构:队列长度>平均车辆等待时间>其他反馈信号。
代码生成任务中,使用三个信号:程序是否通过所有测试、程序通过测试的百分比、与专家演示之间的AST相似度。
在经典控制和机器人控制任务中,使用多层MLP参数化奖励模型,并采用DDPG算法进行训练。
Citater
"HERON trains a preference-based reward model through pair-wise trajectory comparisons."
"Our framework can not only train high performing agents on difficult tasks but also provide additional benefits such as improved sample efficiency and robustness."
"HERON is quite flexible, and by changing the reward hierarchy we can significantly influence the agent’s behavior."