이 논문은 선호도 기반 피드백을 활용한 강화학습 알고리즘의 효율성 향상을 위한 새로운 접근법을 제안한다.
핵심 내용은 다음과 같다:
선형 MDP 모델에서, 무작위화 기법을 활용한 알고리즘을 제안한다. 이 알고리즘은 근사 최적의 worst-case 후회율 경계와 다항식 수행 시간을 달성한다. 또한 새로운 무작위 능동 학습 절차를 통해 질의 복잡성을 최소화한다.
비선형 함수 근사로 확장하기 위해, Thompson Sampling 기반의 모델 기반 무작위 알고리즘을 설계한다. 이 알고리즘은 Bayesian 후회율 경계와 Bayesian 질의 복잡성을 근사 최적으로 달성한다.
두 알고리즘 모두 분산 기반의 불확실성 측정을 활용하여 질의 조건을 설계한다. 이를 통해 계산적으로 효율적인 능동 학습 절차를 구현할 수 있다.
전반적으로, 이 논문은 선호도 기반 피드백을 활용한 강화학습의 이론적 기반을 제공하며, 실용적인 통찰력도 제시한다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Runzhe Wu,We... às arxiv.org 03-14-2024
https://arxiv.org/pdf/2310.14554.pdfPerguntas Mais Profundas