本論文では、複数のコンテキスト付き確率的バンディットタスクをメタ学習する問題を扱う。タスクパラメータが低次元アフィン部分空間に集中していると仮定し、オンラインPCAを用いてこの部分空間を学習する。この知識を活用して2つの意思決定ポリシーを提案し、理論的に分析する。1つは不確実性に対する楽観主義の原理に基づくLinUCBの変形、もう1つはThompson samplingの変形である。提案手法は既存手法の特殊ケースを含む一般的なフレームワークであり、実験結果では複数のバンディットタスクでレグレットを大幅に削減できることを示す。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Steven Bilaj... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00688.pdfDeeper Inquiries