이 연구는 다중 에이전트 강화 학습에서 발생하는 중복 계산 문제를 해결하기 위해 국소적 중앙 실행 프레임워크를 제안한다.
먼저, 중복 관찰 비율 Rdd라는 지표를 도입하여 다중 에이전트 시스템의 중복 계산 정도를 정량화한다.
그 다음, 국소적 중앙 실행(LCE) 프레임워크를 제안한다. LCE에서는 일부 에이전트가 리더로 선정되어 자신과 주변 에이전트들의 행동을 결정한다. 이를 통해 다른 에이전트들은 자신의 관찰과 계산을 생략할 수 있어 중복 계산을 줄일 수 있다.
LCE 프레임워크에 팀 트랜스포머(T-Trans) 구조와 리더십 전환 메커니즘을 결합한 LCTT 방법을 제안한다. T-Trans를 통해 리더 에이전트가 각 워커 에이전트에게 특정 지시를 내릴 수 있고, 리더십 전환 메커니즘을 통해 에이전트들이 자율적으로 리더와 워커의 역할을 바꿀 수 있다.
실험 결과, LCTT 방법은 중복 계산을 크게 줄이면서도 보상 수준을 유지하고 학습 수렴 속도를 높일 수 있음을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询