이 논문은 다중 에이전트 강화 학습에서 글로벌 정보의 활용에 대한 새로운 접근법을 제안한다. 기존의 CTDE 방식은 중앙집중형 훈련 과정에서 글로벌 정보를 활용하지만, 분산 실행 시에는 이를 활용하지 않는다. 이에 반해 본 논문에서는 다음과 같은 접근법을 제안한다:
글로벌 정보 개인화(GIP) 모듈을 통해 각 에이전트에 맞춤형 글로벌 정보를 생성한다. 이를 통해 개별 Q-함수 또는 개별 정책을 향상시킬 수 있다.
지식 증류 기법을 활용하여 에이전트의 로컬 정보만으로도 개인화된 글로벌 정보를 활용할 수 있도록 한다. 이를 통해 분산 실행 시에도 성능 저하를 최소화할 수 있다.
제안한 PTDE 패러다임은 다양한 벤치마크 환경과 알고리즘에서 우수한 성능을 보인다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yiqun Chen,H... lúc arxiv.org 04-23-2024
https://arxiv.org/pdf/2210.08872.pdfYêu cầu sâu hơn