本文提出了一種新的基於偏好的強化學習方法 - 多類型偏好學習(MTPL)。
MTPL同時學習來自等同偏好和顯式偏好的信息,以提高反饋效率。
具體來說:
提出了等同偏好學習任務,鼓勵神經網絡在兩個行為被標記為等同偏好時產生相似的獎勵預測。
基於多任務學習的概念,設計了MTPL方法,能夠同時學習等同偏好和顯式偏好,促進信息共享,提高對人類反饋的理解。
實驗結果表明,MTPL方法能夠顯著提高四種現有SOTA基線方法的性能,平均提升27.34%。在一些存在顯式偏好較少的任務中,MTPL取得了巨大的性能提升,如Point mass easy任務提升40,490%,Hopper hop任務提升3,188%。
這些結果表明,MTPL能夠有效利用等同偏好信息,提高基於偏好的強化學習的反饋效率,為該領域帶來重要貢獻。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询