이 논문은 다중 에이전트 강화 학습에서 발생하는 비정상성 문제를 해결하기 위한 XP-MARL 프레임워크를 제안한다.
우선순위 할당 단계에서는 각 에이전트에게 우선순위 점수를 부여하고 이를 기반으로 에이전트 순서를 결정한다. 의사결정 단계에서는 높은 우선순위 에이전트가 먼저 행동하고 이를 하위 에이전트에게 전파하는 메커니즘을 사용한다. 이를 통해 하위 에이전트들이 더 예측 가능한 환경에서 행동할 수 있게 된다.
실험 결과, XP-MARL은 기존 방식 대비 충돌률을 84.4% 낮추며 최신 기법인 상대방 모델링 기반 접근법보다 우수한 성능을 보였다. 또한 통신 노이즈에 대해서도 강건한 것으로 나타났다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania