核心概念
報酬設計のための階層的なフレームワークを提案する。
統計
交通灯控制环境中,6个反馈信号具有等级结构:队列长度>平均车辆等待时间>其他反馈信号。
代码生成任务中,使用三个信号:程序是否通过所有测试、程序通过测试的百分比、与专家演示之间的AST相似度。
在经典控制和机器人控制任务中,使用多层MLP参数化奖励模型,并采用DDPG算法进行训练。
引用
"HERON trains a preference-based reward model through pair-wise trajectory comparisons."
"Our framework can not only train high performing agents on difficult tasks but also provide additional benefits such as improved sample efficiency and robustness."
"HERON is quite flexible, and by changing the reward hierarchy we can significantly influence the agent’s behavior."