核心概念
本文提出了一種新的基於偏好的強化學習方法 - 多類型偏好學習(MTPL),它能夠同時學習來自等同偏好和顯式偏好的信息,從而更好地理解人類反饋,提高反饋效率。
摘要
本文提出了一種新的基於偏好的強化學習方法 - 多類型偏好學習(MTPL)。
MTPL同時學習來自等同偏好和顯式偏好的信息,以提高反饋效率。
具體來說:
提出了等同偏好學習任務,鼓勵神經網絡在兩個行為被標記為等同偏好時產生相似的獎勵預測。
基於多任務學習的概念,設計了MTPL方法,能夠同時學習等同偏好和顯式偏好,促進信息共享,提高對人類反饋的理解。
實驗結果表明,MTPL方法能夠顯著提高四種現有SOTA基線方法的性能,平均提升27.34%。在一些存在顯式偏好較少的任務中,MTPL取得了巨大的性能提升,如Point mass easy任務提升40,490%,Hopper hop任務提升3,188%。
這些結果表明,MTPL能夠有效利用等同偏好信息,提高基於偏好的強化學習的反饋效率,為該領域帶來重要貢獻。
統計資料
在Point mass easy任務中,四種基線方法的平均獎勵分別為1.25、1.14、1.61和0.84,而MTPL方法的平均獎勵為677.35,提升了40,490%。
在Hopper hop任務中,PEBBLE和SeqRank的顯式偏好比例分別低於27%和5%,MTPL方法的平均獎勵為20.32,提升了3,188.38%。