Основные понятия
오프라인 강화 학습의 샘플 복잡성을 모델 기반 접근법으로 해결
Аннотация
오프라인 강화 학습은 사전 수집된 데이터를 사용하여 학습하며, 분포 변화와 제한된 데이터 커버리지에 대응해야 함
모델 기반 접근법은 타원형 마르코프 의사 결정 과정에서 최적의 샘플 복잡성을 달성
알고리즘은 가치 반복의 "비관적" 변형이며, 분산 감소를 요구하지 않음
연구는 샘플 복잡성을 최소화하고 모든 ε 범위에 대해 최적화를 달성하는 새로운 통계 이론을 제시
Статистика
모델 기반 오프라인 강화 학습은 ε-정확도를 위해 SC⋆clipped(1−γ)3ε2의 샘플 복잡성을 달성
유한 시간 MDPs에 대한 VI-LCB 알고리즘은 H4SC⋆clippedε2의 샘플 복잡성을 달성
Цитаты
"모델 기반 오프라인 강화 학습은 ε-정확도를 위해 SC⋆clipped(1−γ)3ε2의 샘플 복잡성을 달성"
"VI-LCB 알고리즘은 H4SC⋆clippedε2의 샘플 복잡성을 달성"