핵심 개념
온라인 강화 학습의 샘플 복잡성을 해결하기 위한 모델 기반 알고리즘의 중요성
초록
1. 소개
- 온라인 강화 학습의 중요성
- 샘플 효율성의 중요성
- 최적의 성능 한계 식별의 어려움
2. 문제 정의
- 유한한 시간-비균질한 MDP에 대한 모델 기반 알고리즘 필요
3. 모델 기반 알고리즘: Monotonic Value Propagation
- 낙관적 업데이트와 UCB 프레임워크 사용
- 에포크 기반 절차 및 두 배 업데이트 기법
- 단조 보너스 함수의 중요성
4. 주요 기술적 혁신
- 이전 접근 방식의 기술적 어려움
- 새로운 전략 제안
통계
SAH3K, HK에 대한 후회를 최소화하는 모디파이드 MVP 알고리즘의 후회
SAH3ε2에 대한 PAC 샘플 복잡성
인용구
"A central issue lying at the heart of online reinforcement learning (RL) is data efficiency."
"How to achieve minimax-optimal regret without incurring any burn-in cost has been an open problem in RL theory."