核心概念
本文提出了一種名為角色扮演 (RP) 的新框架,用於解決多智能體強化學習中的零樣本協調問題,透過將策略空間映射到角色嵌入空間,並使用角色預測器來估計其他智能體的角色,從而使智能體能夠在沒有事先見過的情況下,有效地與其他具有不同策略的智能體進行協調和互動。
摘要
角色扮演:在多智能體互動中學習自適應的角色特定策略
本研究旨在解決多智能體強化學習 (MARL) 中的零樣本協調問題,特別是當智能體需要與訓練期間未遇到的新夥伴有效互動時。
本研究提出了一種名為角色扮演 (RP) 的新框架,該框架利用角色嵌入將龐大的 MARL 策略空間壓縮成更易於管理的「人類角色空間」。具體來說,RP 框架包含以下關鍵創新:
角色嵌入
利用複雜的獎勵映射函數將廣泛的策略空間投影到更易於管理的角色嵌入空間,促進了對智能體行為複雜環境的結構化和策略性導航。
角色預測器
受社會直覺的啟發,開發了一個角色預測器,用於估計其他智能體的聯合角色嵌入,幫助學習智能體適應其指定的角色。
元任務學習
採用元學習技術將智能體交互建模為元任務,使學習智能體能夠從有限的經驗中推斷出新的、未見過的場景。