이 연구는 조건부 협력자(CC) 에이전트와 심층 강화 학습(DRL) 에이전트로 구성된 다중 에이전트 강화 학습 게임을 제안합니다. DRL 에이전트는 두 가지 보상 함수를 사용하여 CC 에이전트의 협력 행동을 유도합니다. 첫 번째는 총 기여도를 최대화하고, 두 번째는 협력적 기여도의 비율을 최대화합니다.
실험 결과, DRL 에이전트가 CC 에이전트의 협력 행동을 크게 향상시킬 수 있음을 보여줍니다. 총 기여도는 8.22%에서 8.85% 증가했고, 협력적 기여도의 비율은 12.42%에서 14.87% 증가했습니다. 이는 DRL 에이전트가 초기에 높은 기여를 함으로써 긍정적인 사회적 규범을 형성하고, CC 에이전트들이 이를 따르게 만드는 것으로 나타났습니다.
이 연구는 다중 에이전트 강화 학습과 조건부 협력 행동에 대한 이해를 높이며, AI가 사회적 규범을 형성하고 협력을 촉진할 수 있는 방법을 제시합니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询