핵심 개념
부분적 경쟁 환경에서 상호 협력 정책을 학습하기 위해 최적의 대응 전략을 모방하는 탐정 에이전트를 활용한다.
초록
이 논문은 다중 에이전트 강화 학습에서 부분적 경쟁 환경에서 상호 협력 정책을 학습하는 방법을 제안한다. 기존 방법들은 상대방의 학습을 일부만 고려하여 한계가 있었지만, 저자들은 상대방의 최적 대응 전략을 모방하는 탐정 에이전트를 활용하는 Best Response Shaping (BRS) 방법을 제안한다.
BRS는 다음과 같은 과정으로 진행된다:
- 탐정 에이전트는 다양한 에이전트들과의 게임을 통해 최적 대응 전략을 학습한다.
- 에이전트는 탐정 에이전트의 대응을 고려하며 자신의 정책을 학습한다.
- 에이전트의 자기 학습 과정을 통해 상호 협력 행동을 장려한다.
저자들은 이터레이티드 죄수의 딜레마와 동전 게임에서 BRS 에이전트의 성능을 검증하였다. BRS 에이전트는 상대방이 최적 대응을 취하더라도 완전한 협력을 달성하였다. 이는 기존 방법들과 차별화되는 점이다.
통계
최적 대응 에이전트(MCTS)는 POLA 에이전트에 비해 더 높은 보상을 얻는다.
BRS 에이전트는 자신과 상대방 모두 최대 보상을 얻는다.
인용구
"LOLA와 POLA 에이전트는 상대방의 몇 단계 앞선 최적화를 고려하여 상호 협력 정책을 학습하지만, 상대방이 더 많은 최적화 단계를 거치면 이를 이용해 에이전트를 공격할 수 있다."
"BRS는 상대방의 최적 대응을 모방하는 탐정 에이전트를 활용하여 에이전트를 학습시킨다."