이 논문은 부분관찰 협력 마르코프 게임(Dec-POMDP)에서 에이전트 간 제로샷 협력을 향상시키기 위한 등변환 신경망 모델을 제안한다.
주요 내용은 다음과 같다:
환경의 대칭성을 신경망 구조에 직접 인코딩하는 등변환 신경망 아키텍처(EQC)를 제안한다. EQC는 수학적으로 등변환을 보장하며, 테스트 시에 임의의 사전 학습된 정책을 개선할 수 있는 연산자로 사용될 수 있다.
EQC를 Hanabi 벤치마크에 적용하여 기존 대칭성 인식 기반 접근법보다 우수한 제로샷 협력 성능을 보인다. 특히 다양한 정책 유형에 대해 EQC를 적용하여 제로샷 협력 능력을 향상시킬 수 있음을 보인다.
대칭성 그룹의 선택이 EQC의 성능에 미치는 영향을 분석한다. 대칭성 그룹의 크기가 클수록 제로샷 협력 성능이 향상되는 것을 확인한다.
이를 통해 다양한 대칭성을 활용하여 에이전트 간 제로샷 협력을 향상시킬 수 있는 새로운 접근법을 제시한다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Darius Mugli... pada arxiv.org 04-11-2024
https://arxiv.org/pdf/2210.12124.pdfPertanyaan yang Lebih Dalam