본 논문에서는 제한된 자원을 가진 환경에서 여러 에이전트가 협력하여 최적의 정책을 학습하는 방법을 제시하며, 특히 제약된 확률적 선형 밴딧 문제에 대한 분산형 알고리즘 MA-OPLB를 소개하고 성능을 분석합니다.