Core Concepts
LOQA는 상대방의 행동-가치 함수를 모델링하여 상호 협력을 유도하는 분산 강화학습 알고리즘이다.
Abstract
다양한 실세계 시나리오에서 에이전트 간 상호작용은 일반합 게임의 역학과 유사하다.
기존 분산 기계학습 알고리즘은 개인의 효용을 최대화하면서도 사회적 복지를 유지하는 균형점을 찾는데 어려움을 겪었다.
LOQA는 상대방이 행동-가치 함수 Q에 비례하여 행동을 선택한다고 가정하고, 이를 활용하여 상호 협력을 유도하는 새로운 분산 강화학습 알고리즘이다.
벤치마크 시나리오인 반복 죄수의 딜레마와 동전 게임에서 LOQA가 최신 기술 수준의 성능을 달성하였다.
LOQA는 계산 비용이 크게 감소하여 실제 다중 에이전트 응용 분야에 적용하기 유망하다.
Stats
상대방의 행동-가치 함수 Q를 몬테카를로 시뮬레이션으로 추정할 수 있다.
상대방의 행동 확률 분포는 추정된 Q 함수를 이용하여 계산할 수 있다.
상대방의 행동 확률 분포에 대한 경사도를 계산하여 에이전트의 정책을 업데이트할 수 있다.
Quotes
"다양한 실세계 시나리오에서 에이전트 간 상호작용은 일반합 게임의 역학과 유사하다."
"기존 분산 기계학습 알고리즘은 개인의 효용을 최대화하면서도 사회적 복지를 유지하는 균형점을 찾는데 어려움을 겪었다."
"LOQA는 상대방이 행동-가치 함수 Q에 비례하여 행동을 선택한다고 가정하고, 이를 활용하여 상호 협력을 유도하는 새로운 분산 강화학습 알고리즘이다."