Core Concepts
연속 행동 공간을 가진 저차원 MDP에 대한 PAC 학습 보장을 제공하는 방법을 제안한다. 기존 알고리즘의 한계를 극복하기 위해 함수의 평활성을 활용하고 정책 클래스를 제한하는 접근법을 사용한다.
Abstract
이 논문은 연속 행동 공간을 가진 저차원 MDP에 대한 PAC 학습 보장을 제공하는 방법을 제안한다.
기존 저차원 MDP 알고리즘의 한계: 행동 공간 크기에 따라 샘플 복잡도가 크게 증가하는 문제가 있다. 이는 실제 응용 분야에서 큰 제약이 된다.
제안 방법:
함수의 평활성을 활용하여 행동 공간 크기에 대한 의존성을 완화한다. 구체적으로 전이 함수와 보상 함수의 평활성 가정을 도입한다.
정책 클래스를 제한하여 기존 분석에서 사용된 중요도 표본추출 lemma를 대체한다.
사례 연구: FLAMBE 알고리즘에 대해 위 방법을 적용하여 연속 행동 공간에서의 PAC 보장을 제공한다.
전이 함수와 보상 함수의 평활성에 따라 다른 형태의 PAC 보장을 제공한다.
정책 클래스 제한 하에서의 PAC 보장과 제한 없는 PAC 보장을 모두 다룬다.
구현 논의: 연속 행동 공간에서 FLAMBE의 효율적인 구현을 위한 방법을 제시한다.
Stats
연속 행동 공간 A = [0, 1]^m에서 전이 함수 오차가 α_E-평활하고 보상 함수가 α_R-홀더 연속이면, FLAMBE의 샘플 복잡도는 O(H^2 * (d^7 / ε^10) * L^(9+8τ) * log(|Φ||Ψ|/δ))이다. 여기서 τ = m/(m+α_E), κ = m/(m+α_E), L = max(L_T, L_R).
전이 함수가 α_T-홀더 연속이고 보상 함수가 α_R-홀더 연속이면, FLAMBE의 샘플 복잡도는 O(H^2 * (d^7 / ε^10+8τ+(4τ+5)σ) * L^(9+8τ)κ * L^(4τ+5)σ * log(|Φ||Ψ|/δ))이다. 여기서 σ = m/min(α_T, α_R), L = max(L_T, L_R).
Quotes
"연속 행동 공간을 가진 많은 실제 응용 분야에서 이 문제가 큰 제약이 된다."
"우리는 함수의 평활성을 활용하여 행동 공간 크기에 대한 의존성을 완화하고, 정책 클래스를 제한하여 기존 분석에서 사용된 중요도 표본추출 lemma를 대체한다."