이 논문은 다중 에이전트 강화 학습에서 발생하는 비정상성 문제를 해결하기 위한 XP-MARL 프레임워크를 제안한다.
우선순위 할당 단계에서는 각 에이전트에게 우선순위 점수를 부여하고 이를 기반으로 에이전트 순서를 결정한다. 의사결정 단계에서는 높은 우선순위 에이전트가 먼저 행동하고 이를 하위 에이전트에게 전파하는 메커니즘을 사용한다. 이를 통해 하위 에이전트들이 더 예측 가능한 환경에서 행동할 수 있게 된다.
실험 결과, XP-MARL은 기존 방식 대비 충돌률을 84.4% 낮추며 최신 기법인 상대방 모델링 기반 접근법보다 우수한 성능을 보였다. 또한 통신 노이즈에 대해서도 강건한 것으로 나타났다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jianye Xu, O... alle arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.11852.pdfDomande più approfondite