이 논문은 다중 에이전트 강화 학습 환경에서 제한된 통신 자원 하에서도 효율적인 협업을 달성하는 방법을 제안한다. 기존 연구에서는 에이전트가 팀메이트의 상태를 예측하여 메시지를 생성하였지만, 이로 인한 불확실성으로 인해 학습 효율이 저하되는 문제가 있었다.
이 논문에서는 DCMAC(Demand-aware Customized Multi-Agent Communication) 프로토콜을 제안한다. DCMAC는 에이전트가 팀메이트로부터 받은 작은 메시지를 통해 팀메이트의 수요를 파악하고, 이를 바탕으로 맞춤형 메시지를 생성한다. 또한 상한 학습 패러다임을 도입하여 이상적인 정책을 학습하고, 이를 통해 타겟 정책의 학습 효율을 높인다.
실험 결과, DCMAC는 제한된 통신 환경에서도 기존 알고리즘 대비 우수한 성능을 보였다. 특히 복잡한 환경에서 DCMAC의 성능이 두드러졌는데, 이는 팀메이트의 수요를 효과적으로 파악하고 맞춤형 메시지를 생성할 수 있기 때문이다. 또한 상한 학습 패러다임을 통해 이상적인 정책을 학습하고 이를 활용함으로써 학습 효율을 높일 수 있었다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询