Core Concepts
엔트로피 정규화가 충분히 적용된 경우, 다중 에이전트 시스템이 선형 수렴 속도로 퀀탈 반응 균형에 도달한다.
Abstract
이 논문은 엔트로피 정규화가 적용된 독립 자연 정책 경사(NPG) 알고리즘을 다중 에이전트 강화 학습에 적용하고 있다. 에이전트들은 개별 보상을 최대화하는 정책을 찾으며, 각 에이전트의 보상은 모든 에이전트의 행동에 의존하여 에이전트 간 게임이 발생한다. 에이전트들은 제한된 합리성 하에서 의사결정을 하며, 이는 엔트로피 정규화를 통해 구현된다.
논문에서는 충분한 엔트로피 정규화 하에서 시스템이 선형 수렴 속도로 퀀탈 반응 균형(QRE)에 도달한다는 것을 보였다. 엔트로피 정규화가 크면 수렴 속도가 빨라지지만, 합리성이 낮아지는 트레이드오프가 존재한다. 실험 결과를 통해 이러한 분석이 검증되었으며, 협력 게임, 포텐셜 게임, 2인 행렬 게임 등 다양한 게임 설정에서 적용 가능함을 확인하였다.
Stats
엔트로피 정규화 계수 τ가 클수록 시스템의 수렴 속도가 빨라진다.
엔트로피 정규화 계수 τ가 작으면 시스템이 수렴하지 않을 수 있다.
실험 결과, 합성 보상 게임에서는 τ ≈ 0.1만 있어도 선형 수렴이 가능했다.
Quotes
"엔트로피 정규화는 에이전트의 합리성을 제한하여 더 많은 탐색을 유도하고 국소 최적해에 빠지는 것을 방지한다."
"퀀탈 반응 균형(QRE)은 제한된 합리성 하에서의 균형을 의미하며, 완전 합리성의 내쉬 균형(NE)과 구분된다."