核心概念
다중 에이전트 시스템에서 개인적 이득과 집단 보상 간의 균형을 달성하기 위한 전략을 탐구하고, 평균장 게임 이론을 활용하여 무한대 규모의 에이전트 집단에서의 균형 해법과 보상 구조를 제시한다.
要約
이 논문은 다중 에이전트 시스템(MAS)과 다중 에이전트 강화 학습(MARL)에서 핵심적인 협력 문제를 다룬다. 개별 에이전트의 이득과 집단 보상 간의 균형을 달성하는 전략을 탐구한다.
먼저 반복 죄수의 딜레마 게임에서 협력을 유도하는 전략을 분석한다. 기존 협력 전략의 한계를 극복하기 위해 개인 이득과 집단 보상을 동시에 높일 수 있는 새로운 전략을 제안한다.
이를 N-플레이어 반복 죄수의 딜레마 게임으로 확장하여, 평균장 게임 이론을 활용해 무한대 규모의 에이전트 집단에서의 균형 해법과 최적 보상 구조를 도출한다.
마지막으로 Unity의 MA-POCA 트레이너를 활용한 시뮬레이션을 통해 이론적 개념을 실제 응용 사례에 적용하고, 협력을 장려하는 시뮬레이션 알고리즘을 탐구한다.
統計
2R > T + S 조건을 만족하면 상호 협력이 최선의 선택이 된다.
평균장 게임에서 에이전트의 효용 함수는 U[j] = -a|j-i| + b로 표현된다. 여기서 a는 균형 i에 대한 에이전트의 선호도, b는 추가적인 선호 요인을 나타낸다.
평균장 분포 P(j,t)는 시간 t에 j명의 에이전트가 이동을 선택할 확률을 나타낸다.
引用
"협력은 다중 에이전트 시스템(MAS)과 다중 에이전트 강화 학습(MARL)에서 근본적인 요소이며, 에이전트들이 개인적 이득과 집단 보상 간의 균형을 맞추어야 한다."
"평균장 게임 이론을 활용하면 무한대 규모의 에이전트 집단에서도 균형 해법과 최적 보상 구조를 도출할 수 있다."