核心概念
MESA는 다중 에이전트 학습에서 상태-행동 공간의 구조를 활용하여 효율적인 탐색 전략을 학습한다.
摘要
MESA는 다중 에이전트 강화 학습에서 효율적인 탐색을 위한 메타 학습 방법이다.
- 학습 단계에서 다양한 훈련 과제를 통해 높은 보상을 얻을 수 있는 상태-행동 부공간을 식별한다.
- 이 부공간을 효과적으로 탐색할 수 있는 다양한 탐색 정책을 학습한다.
- 테스트 단계에서는 이 학습된 탐색 정책을 활용하여 새로운 과제에서 효율적으로 탐색할 수 있다.
- 이를 통해 희소 보상 환경에서도 우수한 성능을 보인다.
- 또한 훈련 과제보다 더 어려운 테스트 과제에서도 일반화 능력을 보인다.
统计
상태-행동 쌍이 높은 보상을 얻을 확률이 낮은 경우, 일반적인 탐색 전략으로는 최적 해를 찾기 어렵다.
구조화된 탐색 전략을 사용하면 최적 해를 빠르게 찾을 수 있다.
引用
"Multi-agent reinforcement learning (MARL) algorithms often struggle to find strategies close to Pareto optimal Nash Equilibrium, owing largely to the lack of efficient exploration."
"The exploration challenge has been studied extensively and existing works can be categorized mainly into two streams."