ZSC-Eval は、未知のパートナーとの協調を評価するための包括的なツールキットとベンチマークを提供する。行動選好報酬を用いた評価パートナー候補の生成、Best Response Diversityに基づく評価パートナーの選択、Best Response Proximityによる協調能力の測定を行う。
상대적 과일반화는 협력적 다중 에이전트 작업에서 발생할 수 있는 문제로, 최적의 공동 행동의 효용이 비최적 공동 행동의 효용보다 낮아지는 현상이다. 이 문제를 해결하기 위해 CURO는 커리큘럼 학습을 활용하여 에이전트가 상대적 과일반화를 극복하고 효과적인 협력 정책을 학습할 수 있도록 한다.
다양한 유형의 팀원들과 협력하여 공동 과제를 수행할 수 있는 자율 에이전트 팀을 만드는 새로운 접근법을 제안한다.
This paper proposes the novel problem setting of N-Agent Ad Hoc Teamwork (NAHT), where a set of autonomous agents must cooperate with dynamically varying numbers and types of teammates to accomplish a common task. The authors introduce the Policy Optimization with Agent Modelling (POAM) algorithm, which leverages ideas from both multi-agent reinforcement learning and ad hoc teamwork to enable effective cooperation in the NAHT setting.
The Laser Learning Environment (LLE) is a new cooperative multi-agent reinforcement learning environment that exhibits a unique combination of perfect coordination, interdependence, and zero-incentive dynamics, posing significant challenges for current state-of-the-art MARL algorithms.