核心概念
밴딧 문제에서 선형 밴딧 문제에 대한 후회율을 연구하고 새로운 한계를 설정합니다.
摘要
밴딧 문제의 Bayesian 후회에 대한 연구
Thompson Sampling 알고리즘의 변형에 대한 새로운 한계 설정
선형 밴딧 문제에 대한 정보 이론적 한계 도출
후회율에 대한 새로운 한계 설정
선형 밴딧 문제의 특정 설정에 대한 한계 도출
統計資料
Dong and Van Roy는 d차원 선형 밴딧 문제에 대해 O(d√T log T)의 후회율을 증명했습니다.
Two Steps Thompson Sampling은 O(d√T)의 후회율을 제공합니다.
引述
"Thompson Sampling 알고리즘의 후회율을 연구한 Dong and Van Roy는 d차원 선형 밴딧 문제에 대해 O(d√T log T)의 후회율을 증명했습니다."
"Two Steps Thompson Sampling은 O(d√T)의 후회율을 제공합니다."