Core Concepts
온라인 강화 학습의 샘플 복잡성을 해결하기 위한 모델 기반 알고리즘의 중요성
Abstract
1. 소개
- 온라인 강화 학습의 중요성
- 샘플 효율성의 중요성
- 최적의 성능 한계 식별의 어려움
2. 문제 정의
- 유한한 시간-비균질한 MDP에 대한 모델 기반 알고리즘 필요
3. 모델 기반 알고리즘: Monotonic Value Propagation
- 낙관적 업데이트와 UCB 프레임워크 사용
- 에포크 기반 절차 및 두 배 업데이트 기법
- 단조 보너스 함수의 중요성
4. 주요 기술적 혁신
- 이전 접근 방식의 기술적 어려움
- 새로운 전략 제안
Stats
SAH3K, HK에 대한 후회를 최소화하는 모디파이드 MVP 알고리즘의 후회
SAH3ε2에 대한 PAC 샘플 복잡성
Quotes
"A central issue lying at the heart of online reinforcement learning (RL) is data efficiency."
"How to achieve minimax-optimal regret without incurring any burn-in cost has been an open problem in RL theory."