Core Concepts
ストキャスティック多腕バンディット問題に対して、平方ヘリンガー距離を使ってアッパー・コンフィデンス・バウンドを構築する新しいアルゴリズム「HELLINGER-UCB」を提案する。理論的下限に到達し、統計的な解釈も持つ。また、現実世界の金融アプリのコンテンツ推薦システムの冷たい始まりの問題にも適用し、良好な結果を示す。
Abstract
本論文では、報酬が未知の確率変数によって決まるストキャスティック多腕バンディット問題を研究している。新しいバリアントのアッパー・コンフィデンス・バウンド(UCB)アルゴリズムである「HELLINGER-UCB」を提案する。これは平方ヘリンガー距離を使ってアッパー・コンフィデンス・バウンドを構築するものである。HELLINGER-UCBが理論的下限に到達することを証明し、また、HELLINGER-UCBが良好な統計的解釈を持つことも示す。有限時間の実験でも、HELLINGER-UCBがKL-UCBなどの他のUCBバリアントよりも優れた性能を示すことを確認した。さらに、金融アプリのコンテンツ推薦システムの冷たい始まりの問題にHELLINGER-UCBを適用し、合理的な仮定の下で低レイテンシーという重要な特徴を持つことを示した。オンラインの実験でも、HELLINGER-UCBがKL-UCBやUCB1よりもクリック率(CTR)が高いことを示した。
Stats
最適な腕の期待報酬を最大化する戦略を見つけるのが目標である。
擬似後悔は、最適な腕を常に選び続けた場合の累積報酬と、戦略による累積報酬の差の期待値として定義される。
擬似後悔は、log(T)のオーダーに抑えられることが理論的に保証されている。
Quotes
"ストキャスティック多腕バンディット問題は、報酬が未知の確率変数によって決まる順次決定問題である。"
"HELLINGER-UCBアルゴリズムは、平方ヘリンガー距離を使ってアッパー・コンフィデンス・バウンドを構築する新しいバリアントのUCBアルゴリズムである。"
"HELLINGER-UCBは理論的下限に到達し、良好な統計的解釈を持つ。"