Główne pojęcia
보상 기계 계층 구조를 활용하여 복잡한 다중 에이전트 협력 과제를 효율적으로 해결할 수 있다.
Streszczenie
이 논문에서는 다중 에이전트 강화 학습 문제를 해결하기 위해 보상 기계(Reward Machine, RM)를 활용하는 MAHRM(Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines) 프레임워크를 제안한다.
MAHRM은 다음과 같은 특징을 가진다:
- 고수준 이벤트(proposition)의 관계를 활용하여 복잡한 과제를 계층적으로 분해한다. 각 고수준 이벤트는 하위 수준의 이벤트들을 시간적으로 추상화한다.
- 각 이벤트에 대응하는 RM을 정의하여 보상 함수를 명시한다. 상위 수준 이벤트의 RM은 하위 수준 이벤트의 RM을 선택하는 정책을 학습한다.
- 에이전트들은 상위 수준 정책에 의해 동적으로 하위 과제를 수행하도록 할당되며, 이를 통해 상태-행동 공간을 효율적으로 분할할 수 있다.
실험 결과, MAHRM은 동일한 고수준 이벤트 정보를 활용하는 다른 MARL 방법들에 비해 우수한 성능을 보였다. 특히 에이전트들이 높은 상호 의존성을 가지는 복잡한 시나리오에서 MAHRM의 장점이 두드러졌다.
Statystyki
에이전트 i가 랜드마크 p에 도달하면 명제 p(i)가 참이 된다.
에이전트 i와 j가 동시에 버튼 a와 b를 누르면 명제 a(i) ∧ b(j)가 참이 된다.
에이전트 i가 방에 도달하면 명제 room(i)가 참이 된다.
Cytaty
"MAHRM은 고수준 이벤트의 관계를 활용하여 복잡한 과제를 계층적으로 분해하고, 각 이벤트에 대응하는 RM을 정의하여 보상 함수를 명시한다."
"에이전트들은 상위 수준 정책에 의해 동적으로 하위 과제를 수행하도록 할당되며, 이를 통해 상태-행동 공간을 효율적으로 분할할 수 있다."