المفاهيم الأساسية
본 논문에서는 알려지지 않은 전이와 적대적 보상을 가진 에피소드 방식의 선형 혼합 MDP에 대한 준 최적 동적 후회를 달성하는 새로운 알고리즘 OOPE를 제안합니다.
본 논문은 알려지지 않은 전이와 적대적 보상을 가진 에피소드 방식의 선형 혼합 MDP 환경에서 준 최적 동적 후회를 달성하는 새로운 알고리즘 OOPE를 제안합니다. 기존 연구에서는 점유 측정 기반 방법과 정책 기반 방법의 장단점을 분석하고, 각 방법의 한계를 극복하기 위해 두 가지 방법을 결합한 새로운 접근 방식을 제시합니다.
기존 방법의 분석
점유 측정 기반 방법: 정책 대신 점유 측정을 최적화하여 비정상 환경을 효과적으로 처리하지만, 알려지지 않은 전이를 처리하는 데 어려움을 겪습니다.
정책 기반 방법: 알려지지 않은 전이를 효과적으로 처리할 수 있지만, 비정상 환경을 처리하는 데 어려움을 겪습니다.
제안하는 방법: OOPE
OOPE 알고리즘은 두 가지 주요 구성 요소로 이루어져 있습니다.
점유 측정 기반 전역 최적화: 환경의 비정상성을 처리하기 위해 2계층 프레임워크를 사용합니다.
정책 기반 가치 목표 회귀: 알려지지 않은 전이를 처리하기 위해 사용됩니다.
이 두 구성 요소는 점유 측정 기반 근사 오류를 정책 기반 추정 오류로 변환하는 새로운 분석을 통해 연결됩니다.
주요 결과
OOPE 알고리즘은 알려지지 않은 전이를 가진 적대적 선형 혼합 MDP에 대해 d, H, K, ¯PK 측면에서 준 최적 동적 후회를 달성합니다. 여기서 d는 특징 차원, H는 에피소드 길이, K는 에피소드 수, ¯PK는 비정상성 척도입니다. 또한, 이러한 결과가 로그 인수까지 minimax 최적임을 증명하는 하한을 제시합니다.
الإحصائيات
OOPE 알고리즘은 e
O(√(d²H³K) + √(HK(H + ¯PK)))의 동적 후회를 달성합니다.
기존의 알려진 비정상성 척도를 사용하는 경우의 동적 후회는 e
O(√(d²H³K) + H²√((K + PK)(1 + PK)))입니다.
기존의 알려지지 않은 비정상성 척도를 사용하는 경우의 동적 후회는 e
O(dHS√K + √(HK(H + ¯PK)))입니다.