Core Concepts
본 연구는 문맥 분포와 단계별 성능 제약 조건이 있는 분산 다중 과제 학습 문제를 다룹니다. 제안된 DiSC-UCB 알고리즘은 각 라운드에서 제약 조건을 만족하는 행동 집합을 구성하고, 중앙 서버를 통해 에이전트 간 동기화를 수행합니다. 이를 통해 O(d√MT log2 T) 수준의 regret 및 O(M1.5d3) 수준의 통신 비용을 달성합니다.
Abstract
본 연구는 분산 다중 과제 학습 문제를 다룹니다. 각 에이전트는 서로 다른 과제를 수행하지만 관련성이 있으며, 정확한 문맥은 알 수 없고 문맥 분포만 알려져 있습니다. 또한 에이전트는 기준 정책에 따른 성능 제약 조건을 만족해야 합니다.
주요 내용은 다음과 같습니다:
각 라운드에서 에이전트는 제약 조건을 만족하는 행동 집합을 구성합니다. 이를 위해 추정된 특징 벡터를 사용하여 안전한 행동을 선별합니다.
에이전트 간 동기화를 위해 중앙 서버를 활용하며, 이를 통해 통신 비용을 줄일 수 있습니다.
제안된 DiSC-UCB 알고리즘은 O(d√MT log2 T) 수준의 regret과 O(M1.5d3) 수준의 통신 비용을 달성합니다.
기준 보상이 알려지지 않은 경우에도 동일한 regret 및 통신 비용 경계를 달성할 수 있도록 DiSC-UCB2 알고리즘을 제안합니다.
Stats
각 라운드 t에서 에이전트 i의 기준 행동 xbt,i에 대한 기대 보상 rbt,i는 rl ≤ rbt,i ≤ rh의 범위에 있습니다.
각 라운드 t에서 최적 행동 x⋆
t,i와 기준 행동 xbt,i의 기대 보상 차이 κbt,i는 κl ≤ κbt,i ≤ κh의 범위에 있습니다.