이 연구는 정보 지향 샘플링(IDS) 원리에 기반한 새로운 다중 에이전트 강화 학습(MARL) 알고리즘을 제안하고 분석한다.
첫째, 두 플레이어 제로섬 MG를 위한 기본 알고리즘 MAIDS를 제안한다. MAIDS는 비대칭 학습 구조를 사용하여 최대 플레이어가 먼저 공동 정보 비율을 최소화하는 정책을 선택하고, 최소 플레이어가 이에 대한 최적 응답 정책을 선택한다. 이론적 분석 결과, MAIDS는 K 에피소드에 대해 ˜O(√K)의 베이지안 regret을 달성한다.
둘째, 계산 복잡도를 줄이기 위해 Reg-MAIDS 알고리즘을 개발한다. Reg-MAIDS는 MAIDS와 동일한 베이지안 regret 상한을 가지면서도 계산 복잡도가 낮다. 이를 위해 평균 환경 개념을 도입하고 기존 MARL 알고리즘을 활용한다.
셋째, 학습 대상을 압축 환경으로 선택하는 Compressed-MAIDS 알고리즘을 제안한다. 정보 이론의 손실 압축 개념에 영감을 받아, 두 가지 압축 환경 구축 원칙(soft-compression, hard-compression)을 제시하고 이에 대한 베이지안 regret 상한을 제공한다.
마지막으로, Reg-MAIDS를 다중 플레이어 일반합 MG로 확장하여, 샘플 효율적으로 내쉬 균형 또는 거친 상관 균형을 학습할 수 있음을 보인다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Qiaosheng Zh... ที่ arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19292.pdfสอบถามเพิ่มเติม