แนวคิดหลัก
Contextual bandits with graph feedback present fundamental learning limits characterized by graph-theoretical quantities.
บทคัดย่อ
この論文では、グラフフィードバックを持つコンテキストバンディットに焦点を当て、最適なリグレットの下限を確立するための新しいアルゴリズムが提案されています。自己回避コンテキストシーケンスに対しては、アルゴリズム1が効果的であり、最小化されたサンプル複雑性を実現します。一方、一般的なコンテキストシーケンスに対しては、アルゴリズム2が提供されており、最適なリグレット上限が示されています。これらのアルゴリズムは、グラフ構造やコンテキストの性質に基づいて動作し、学習プロセス全体を効率的に管理します。
สถิติ
リグレット下限 Ω(√βM(G)T)
最大非循環部分グラフ(MAS)番号 m(G)
コンテキスト数 M
グラフ G の独立数 α(G)
グラフ理論量 βM(G)
คำพูด
"Contextual bandits encode a rich class of sequential decision making problems in reality."
"We make inroads into this inquiry by establishing a regret lower bound Ω(√βM(G)T)."
"Our results show that the MAS number completely characterizes the statistical complexity for contextual bandits."