Konsep Inti
본 연구는 강화학습에서 일정한 후회 보장을 위한 알고리즘 Cert-LSVI-UCB를 제안한다. 이 알고리즘은 모델 오차가 있는 선형 MDP 환경에서도 고확률로 일정한 후회 상한을 달성할 수 있다.
Abstrak
이 논문은 강화학습에서 일정한 후회 보장을 위한 알고리즘 Cert-LSVI-UCB를 제안한다. 기존 연구에서는 후회 상한이 에피소드 수에 따라 증가하는 문제가 있었지만, Cert-LSVI-UCB는 이를 해결하였다.
핵심 내용은 다음과 같다:
- Cert-LSVI-UCB는 모델 오차가 있는 선형 MDP 환경에서도 고확률로 일정한 후회 상한을 달성할 수 있다. 이를 위해 혁신적인 인증 추정기를 도입하였다.
- Cert-LSVI-UCB의 후회 상한은 e
Opd3H5/Δq로, 에피소드 수 K와 무관하다. 이는 기존 연구의 로그 K 의존성을 제거한 것이다.
- 제안된 알고리즘과 분석 기법은 독립적인 관심사를 가진다.
Statistik
후회 상한은 e
Opd3H5/Δq로, 에피소드 수 K와 무관하다.
모델 오차 수준 ζ는 e
Op∆/√dH2q 이하여야 한다.
Kutipan
"Cert-LSVI-UCB는 모델 오차가 있는 선형 MDP 환경에서도 고확률로 일정한 후회 상한을 달성할 수 있다."
"Cert-LSVI-UCB의 후회 상한은 e
Opd3H5/Δq로, 에피소드 수 K와 무관하다."