본 논문에서는 N명의 협력적 에이전트가 연결된 그래프 G에서 이동하며 노드별 확률 분포에서 보상을 받는 다중 에이전트 그래프 밴딧 문제를 다룹니다. 에이전트들의 보상은 노드 선택 횟수에 따라 가중치가 적용되며, 저자들은 UCB 기반 학습 알고리즘 Multi-G-UCB를 제안하고 이의 후회 한계를 O(γN log(T)[√KT + DK])로 증명합니다.


coremsg

협력적-다중-에이전트-그래프-밴딧-ucb-알고리즘-및-후회-분석


협력적 다중 에이전트 그래프 밴딧: UCB 알고리즘 및 후회 분석