線形バンディットのための改良型メタ・トンプソンサンプリングとその
ベイズ後悔分析
本論文は、線形バンディット問題に対する改良型メタ・トンプソンサンプリング
アルゴリズム(Meta-TSLB)を提案し、その理論的な後悔分析を行っている。
メタ・トンプソンサンプリングは、未知の事前分布を学習しながら、
バンディットインスタンス間の学習を転移させるメタ学習アプローチである。
本論文では、Meta-TSLBのベイズ後悔界を
O((m+log(m))√nlog(n))と導出し、
従来のメタ・トンプソンサンプリングよりも改善されていることを示している。
さらに、線形バンディットに適用したメタ・トンプソンサンプリングの
ベイズ後悔界も補足的に導出している。