이 논문은 상대적 과일반화(RO)가 협력적 다중 에이전트 강화 학습(MARL) 문제에서 발생할 수 있는 문제임을 보여준다. RO는 에이전트들이 지역 최적에 빠지거나 주어진 시간 내에 상당한 조정이 필요한 협력 작업을 해결하지 못하게 만들 수 있다.
저자들은 CURO라는 새로운 접근법을 제안한다. CURO는 커리큘럼 학습을 MARL과 결합하여 RO를 더 잘 극복할 수 있게 한다. CURO의 핵심 아이디어는 RO가 심각한 목표 작업을 해결하기 위해 RO가 없거나 약한 더 쉬운 작업들로 구성된 커리큘럼을 만드는 것이다. 이를 통해 에이전트는 이전 작업에서 습득한 긍정적인 경험을 활용하여 목표 작업에서 더 효율적으로 탐색할 수 있다.
CURO는 가치 기반 및 정책 경사 MARL 방법 모두에 적용될 수 있다. 실험 결과, CURO를 QMIX, HAPPO, HATRPO에 적용했을 때 심각한 RO를 극복하고 향상된 성능을 달성할 수 있었다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Lin Shi, Qiy... : arxiv.org 09-24-2024
https://arxiv.org/pdf/2212.02733.pdfDaha Derin Sorular