核心概念
이질적 행동 삭제 채널에서 다중 에이전트 밴딧 학습을 위한 새로운 알고리즘을 제안하며, 이를 통해 선형 regret 보다 향상된 sub-linear regret 보장
摘要
이 논문은 다중 에이전트 환경에서 중앙 학습자와 분산 에이전트 간의 통신 채널에서 발생할 수 있는 행동 삭제 문제를 다룹니다.
- 에이전트들은 학습자로부터 받은 행동 지시를 수행하지만, 채널 상태에 따라 행동 지시가 삭제될 수 있습니다.
- 학습자는 에이전트들의 행동 수행 여부에 대한 피드백을 받지 못하므로, 보상 관찰과 행동 간의 연관성이 불명확해집니다.
- 이러한 상황에서 저자들은 BatchSP2 알고리즘을 제안합니다. 이 알고리즘은 행동 반복과 에이전트 간 스케줄링을 통해 이질적 채널 환경에서 sub-linear regret을 보장합니다.
- 실험 결과를 통해 BatchSP2가 기존 알고리즘 대비 우수한 성능을 보임을 확인했습니다.
统计
각 에이전트 m의 행동 반복 횟수 αm = ⌈4 log T/ log (1/ϵm)⌉-1
배치 i의 끝나는 시간 T(i) ≤ K4iτ + 6(ΣM
m=1 αm/M + 2K4i/M), 여기서 τ = 1/ΣM
m=1 1/(αm/4i+1)
引用
"Multi-Armed Bandit (MAB) systems are witnessing an upswing in applications within multi-agent distributed environments, leading to the advancement of collaborative MAB algorithms."
"A prevalent challenge in distributed learning is action erasure, often induced by communication delays and/or channel noise. This results in agents possibly not receiving the intended action from the learner, subsequently leading to misguided feedback."