핵심 개념
본 논문에서는 더욱 엄격한 비용 비관론과 보상 낙관론을 기반으로 한 새로운 모델 기반 알고리즘인 DOPE+를 통해 안전 강화 학습 문제에 대한 개선된 후회 경계를 제시합니다.
본 논문은 에피소드형 유한-수평 테이블 형식의 제한된 마르코프 결정 과정(CMDP)으로 공식화된 안전 강화 학습(RL) 문제를 다룹니다. 특히, 전이 커널은 알 수 없지만, 확률적 보상 및 비용 함수는 알려진 경우를 가정합니다. 본 논문은 더욱 엄격한 비용 비관론과 보상 낙관론을 제공하는 새로운 비용 및 보상 함수 추정치를 기반으로 하는 모델 기반 알고리즘을 제안합니다.
DOPE+ 알고리즘
본 논문에서 제안된 DOPE+ 알고리즘은 모든 에피소드에서 제약 조건 위반 없이 e
O(( ¯C −¯Cb)−1H2.5S
√
AK)의 후회 상한을 달성합니다. 여기서 ¯C는 에피소드에 대한 비용 예산, ¯Cb는 에피소드에 대한 안전 기준 정책에 따른 예상 비용, H는 수평선, S, A 및 K는 각각 상태, 행동 및 에피소드의 수입니다. 이는 알려진 최상의 후회 상한을 개선한 것이며, ¯C −¯Cb = Ω(H)일 때 Ω(H1.5√
SAK)의 후회 하한과 거의 일치합니다.
주요 기여
본 논문의 주요 기여는 다음과 같습니다.
개선된 후회 경계: DOPE+ 알고리즘은 모든 에피소드에서 제약 조건 위반 없이 e
O(( ¯C −¯Cb)−1H2.5√
S2AK)의 후회 상한을 달성합니다.
더욱 엄격한 함수 추정치: 더욱 엄격한 보상 낙관론과 비용 비관론을 가진 새로운 보상 및 비용 함수 추정치를 제안합니다. 이는 값 함수 추정치의 분산 합계에 대한 더 엄격한 경계를 얻기 위해 Bellman 유형의 총 분산 법칙을 적용하여 도출되었습니다.
수치적 검증: 제안된 프레임워크의 계산적 효율성을 입증하기 위해 수치적 결과를 제시합니다.
결과 분석
DOPE+ 알고리즘은 기존의 DOPE 알고리즘보다 수치적으로도, 이론적으로도 개선된 성능을 보입니다. 특히, 후회 경계는 e
O(
√
H)만큼 개선되었으며, ¯C −¯Cb = Ω(H)일 때 거의 최적의 후회 하한에 도달합니다.
결론
본 논문은 더욱 엄격한 비용 비관론과 보상 낙관론을 사용하여 안전 강화 학습 문제에 대한 개선된 후회 경계를 달성하는 새로운 모델 기반 알고리즘을 제시합니다. 제안된 알고리즘은 이론적으로뿐만 아니라 수치적으로도 효과적임을 보여줍니다.
통계
DOPE+ 알고리즘은 최대 e
O(( ¯C −¯Cb)−1H2.5S
√
AK)의 후회 상한을 달성합니다.
DOPE+ 알고리즘은 모든 에피소드에서 제약 조건 위반을 보장하지 않습니다.
DOPE+ 알고리즘은 ¯C −¯Cb = Ω(H)일 때 Ω(H1.5√
SAK)의 후회 하한과 거의 일치합니다.