核心概念
本論文では、限定的適応性の下で一般化線形コンテキストバンディットの問題を解決するアルゴリズムを提案する。提案アルゴリズムは、バッチ学習と稀なポリシー切り替えの2つのモデルに対して、本質的に最適なレグレット界限を達成する。さらに、重要なパラメータκに依存しないレグレット界限を得ることに成功した。
摘要
本論文では、一般化線形コンテキストバンディットの問題を限定的適応性の下で解決するアルゴリズムを提案している。
まず、バッチ学習モデルに対するアルゴリズムB-GLinCBを提案する。このアルゴリズムは、Ω(log log T)のバッチ数で、レグレットがO(√T)のオーダーに抑えられることを示す。
次に、稀なポリシー切り替えモデルに対するアルゴリズムRS-GLinCBを提案する。このアルゴリズムは、最大O(log^2 T)回のポリシー更新で、レグレットがO(√T)のオーダーに抑えられることを示す。
さらに、一般化線形コンテキストバンディットにおいてパラメータκに依存しないレグレット界限を得ることに成功した。これは、従来のアルゴリズムにはなかった新しい特徴である。
統計資料
一般化線形モデルのパラメータθ*のノルムは既知の定数Sを超えない
各ラウンドtにおける腕xの長さは1以下
報酬の上限Rは既知