本論文は、線形バンディット問題に対する改良型メタ・トンプソンサンプリング
アルゴリズム(Meta-TSLB)を提案し、その理論的な後悔分析を行っている。
主な内容は以下の通り:
メタ・トンプソンサンプリング(Meta-TS)は、未知の事前分布を学習しながら、
バンディットインスタンス間の学習を転移させるメタ学習アプローチである。
本論文ではこれを線形バンディットに拡張したMeta-TSLBを提案している。
Meta-TSLBのベイズ後悔界を理論的に分析し、
O((m+log(m))√nlog(n))の上界を導出している。
これは従来のメタ・トンプソンサンプリングよりも改善されている。
線形バンディットに適用したメタ・トンプソンサンプリングのベイズ後悔界も
補足的に導出している。
様々な線形バンディット問題設定(有限の潜在的事前分布、無限アーム、
シーケンシャル)に対してMeta-TSLBの性能を評価し、
その有効性を実験的に示している。
Meta-TSLBの一般化能力についても検証し、
新しい問題に対しても良好な性能を発揮することを確認している。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Hao Li, Dong... às arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06329.pdfPerguntas Mais Profundas