Concepts de base
LOQA는 상대방의 행동-가치 함수를 모델링하여 상호 협력을 유도하는 분산 강화학습 알고리즘이다.
Stats
상대방의 행동-가치 함수 Q를 몬테카를로 시뮬레이션으로 추정할 수 있다.
상대방의 행동 확률 분포는 추정된 Q 함수를 이용하여 계산할 수 있다.
상대방의 행동 확률 분포에 대한 경사도를 계산하여 에이전트의 정책을 업데이트할 수 있다.
Citations
"다양한 실세계 시나리오에서 에이전트 간 상호작용은 일반합 게임의 역학과 유사하다."
"기존 분산 기계학습 알고리즘은 개인의 효용을 최대화하면서도 사회적 복지를 유지하는 균형점을 찾는데 어려움을 겪었다."
"LOQA는 상대방이 행동-가치 함수 Q에 비례하여 행동을 선택한다고 가정하고, 이를 활용하여 상호 협력을 유도하는 새로운 분산 강화학습 알고리즘이다."