핵심 개념
본 연구는 위험 민감형 다중 에이전트 강화 학습을 위한 새로운 가치 분해 방법인 RiskQ를 제안한다. RiskQ는 개별 에이전트의 위험 민감형 행동 선택과 중앙 정책의 위험 민감형 행동 선택이 일치하는 위험 민감형 개별-전역-최대(RIGM) 원칙을 만족한다.
초록
본 논문은 다중 에이전트 강화 학습(MARL)에서 위험을 고려한 협력적인 정책을 학습하는 방법을 제안한다. 기존의 MARL 가치 분해 방법들은 위험 민감형 정책 조정을 고려하지 않았다.
저자들은 위험 민감형 정책 조정을 위한 새로운 원칙인 위험 민감형 개별-전역-최대(RIGM) 원칙을 제안한다. RIGM 원칙은 개별 에이전트의 위험 민감형 행동 선택과 중앙 정책의 위험 민감형 행동 선택이 일치해야 함을 요구한다.
저자들은 RiskQ라는 새로운 가치 분해 알고리즘을 제안한다. RiskQ는 RIGM 원칙을 만족하며, 가치 분포의 퀀타일을 개별 에이전트 효용 함수의 퀀타일의 가중합으로 모델링한다. 이를 통해 RiskQ는 VaR 및 왜곡 위험 측도에 대해 RIGM 원칙을 만족한다.
실험 결과, RiskQ는 위험 민감형 게임 및 StarCraft II MARL 과제에서 우수한 성능을 보였다. 또한 RiskQ가 RIGM 원칙을 만족하는 것이 성능 향상에 중요함을 확인하였다.
통계
다중 에이전트 시스템은 환경의 불확실성, 에이전트 간 정책 차이, 부분 관측성으로 인해 상당한 위험이 존재한다.
위험 민감형 MARL에서 조정된 분산 정책을 학습하는 것은 어려운 과제이다.
기존 MARL 가치 분해 방법들은 VaR 및 왜곡 위험 측도와 같은 일반적인 위험 측도에 대해 RIGM 원칙을 만족하지 않는다.
인용구
"Multi-agent systems are characterized by environmental uncertainty, varying policies of agents, and partial observability, which result in significant risks."
"To formulate the coordination requirements in risk-sensitive MARL, we introduce the Risk-sensitive Individual-Global-Max (RIGM) principle as a generalization of the Individual-Global-Max (IGM) and Distributional IGM (DIGM) principles."
"Current MARL value factorization methods do not satisfy the RIGM principle for common risk metrics such as the Value at Risk (VaR) metric or distorted risk measurements."