이 논문은 다중 에이전트 시스템(MAS)과 다중 에이전트 강화 학습(MARL)에서 핵심적인 협력 문제를 다룬다. 개별 에이전트의 이득과 집단 보상 간의 균형을 달성하는 전략을 탐구한다.
먼저 반복 죄수의 딜레마 게임에서 협력을 유도하는 전략을 분석한다. 기존 협력 전략의 한계를 극복하기 위해 개인 이득과 집단 보상을 동시에 높일 수 있는 새로운 전략을 제안한다.
이를 N-플레이어 반복 죄수의 딜레마 게임으로 확장하여, 평균장 게임 이론을 활용해 무한대 규모의 에이전트 집단에서의 균형 해법과 최적 보상 구조를 도출한다.
마지막으로 Unity의 MA-POCA 트레이너를 활용한 시뮬레이션을 통해 이론적 개념을 실제 응용 사례에 적용하고, 협력을 장려하는 시뮬레이션 알고리즘을 탐구한다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Vaigarai Sat... klo arxiv.org 05-06-2024
https://arxiv.org/pdf/2309.16263.pdfSyvällisempiä Kysymyksiä