이 논문은 다중 에이전트 강화 학습(MARL)에서 효과적인 에이전트 협력을 위해 잠재적 시간 희소 조정 그래프(LTS-CG)를 추론하는 방법을 제안한다.
LTS-CG는 에이전트들의 과거 관측 궤적을 활용하여 에이전트 간 확률 행렬을 계산하고, 이로부터 희소 그래프를 샘플링한다. 이를 통해 에이전트 간 의존성을 포착하고 관계의 불확실성을 모델링한다.
또한 LTS-CG는 두 가지 핵심적인 특성을 그래프 학습에 포함한다. 첫째, Predict-Future는 에이전트가 미래 관측을 예측할 수 있게 하여 현재 의사결정을 향상시킨다. 둘째, Infer-Present는 부분적으로 관측된 에이전트가 그래프 정보를 활용하여 전체 환경 상황을 파악할 수 있게 한다.
이를 통해 LTS-CG는 과거 경험과 현재 정보를 모두 활용하여 시간적 그래프 구조를 학습하고, 이를 바탕으로 에이전트 간 지식 교환과 효과적인 협력을 가능하게 한다. 그래프 학습과 에이전트 정책 학습이 end-to-end 방식으로 동시에 진행된다.
실험 결과, LTS-CG는 StarCraft II 벤치마크에서 기존 방법들보다 우수한 성능을 보였다. 또한 에이전트 궤적을 활용하는 것이 one-step 관측만 사용하는 것보다 효과적이며, Predict-Future와 Infer-Present 특성이 LTS-CG의 성능 향상에 기여함을 확인하였다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Wei Duan,Jie... : arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19253.pdfDaha Derin Sorular