本文首次探討了多智能體偏好式強化學習(PbRL)的應用,將其擴展到人機協作的場景中,並將其形式化為人機PbRL合作遊戲。在這個遊戴中,強化學習智能體會向人類提出查詢,以獲取任務目標和人類對團隊行為的偏好。
作者提出了人類靈活性的概念,用於評估團隊的表現,即人類是偏好遵循固定策略還是願意即時適應強化學習智能體。此外,作者還研究了強化學習智能體對人類策略的不同訪問權限。作者發現,在人類靈活性和智能體訪問人類策略的兩個維度上存在一個特殊情況,稱為指定協調,其中人類最不靈活,而智能體對人類策略有完全訪問權限。
通過一項遊戲化的用戶研究,作者闡述了考慮人類靈活性的必要性,以及指定協調的有用性。作者還改編了一套基於機器人運動的域,明確要求強制協作,並將現有的單智能體PbRL方法擴展到這個雙智能體設置中,得出了一些見解,認為這些見解對未來的人機協作場景研究很有幫助。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Siddhant Bha... alle arxiv.org 09-26-2024
https://arxiv.org/pdf/2312.14292.pdfDomande più approfondite