核心概念
複数のコンテキスト付き確率的バンディットタスクをメタ学習することで、低次元アフィン部分空間への集中を活用し、期待レグレットを低減する。
要約
本論文では、複数のコンテキスト付き確率的バンディットタスクをメタ学習する問題を扱う。タスクパラメータが低次元アフィン部分空間に集中していると仮定し、オンラインPCAを用いてこの部分空間を学習する。この知識を活用して2つの意思決定ポリシーを提案し、理論的に分析する。1つは不確実性に対する楽観主義の原理に基づくLinUCBの変形、もう1つはThompson samplingの変形である。提案手法は既存手法の特殊ケースを含む一般的なフレームワークであり、実験結果では複数のバンディットタスクでレグレットを大幅に削減できることを示す。
統計
文脈ベクトルxaの長さは1以下である。
タスクパラメータθ*は分布ρから独立にサンプリングされ、長さはV以下である。
報酬ノイズϵkは1-subgaussianである。