이 논문은 다중 에이전트 강화 학습에서 글로벌 정보의 활용에 대한 새로운 접근법을 제안한다. 기존의 CTDE 방식은 중앙집중형 훈련 과정에서 글로벌 정보를 활용하지만, 분산 실행 시에는 이를 활용하지 않는다. 이에 반해 본 논문에서는 다음과 같은 접근법을 제안한다:
글로벌 정보 개인화(GIP) 모듈을 통해 각 에이전트에 맞춤형 글로벌 정보를 생성한다. 이를 통해 개별 Q-함수 또는 개별 정책을 향상시킬 수 있다.
지식 증류 기법을 활용하여 에이전트의 로컬 정보만으로도 개인화된 글로벌 정보를 활용할 수 있도록 한다. 이를 통해 분산 실행 시에도 성능 저하를 최소화할 수 있다.
제안한 PTDE 패러다임은 다양한 벤치마크 환경과 알고리즘에서 우수한 성능을 보인다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yiqun Chen,H... : arxiv.org 04-23-2024
https://arxiv.org/pdf/2210.08872.pdfDaha Derin Sorular