Core Concepts
部分的に観測されるオンラインバイナリ分類問題において、Thompson Samplingアルゴリズムが優れた性能を示すことが理論的に示された。
Abstract
本論文では、部分的に観測されるオンラインバイナリ分類問題を扱っている。この問題では、学習者が順次アイテムにラベル(0または1)を割り当てるが、ラベル1を選択した場合にのみアイテムの真のラベルを観測できる。学習者は短期的な分類精度と長期的な情報獲得のトレードオフに直面する。
本研究の主な貢献は以下の通り:
Thompson Sampling (TS)アルゴリズムのベイズ的レグレット上限を情報理論的手法を用いて解析し、特徴量の次元に関して改善された上限を示した。これは、既存の上限と比べて理論的にも実験的にも優れた性能を示す。
ポリア-ガンマ分布を用いた近似TSアルゴリズムを提案し、その漸近的な一致性を示した。
情報指向サンプリング(IDS)アルゴリズムの問題点を指摘し、それを改善した変種を提案した。
シミュレーション実験により、提案手法であるポリア-ガンマ近似TSおよび改善型IDSが既存手法に比べて優れた性能を示すことを確認した。
Stats
特徴量xの次元dが大きいほど、ベイズ的レグレットの上限が大きくなる。
特徴量xの大きさxmaxが大きいほど、ベイズ的レグレットの上限が大きくなる。
損失関数のパラメータlmax(l01, 1-l11の最大値)が大きいほど、ベイズ的レグレットの上限が大きくなる。
Quotes
"部分的に観測されるオンラインバイナリ分類問題は、短期的な分類精度と長期的な情報獲得のトレードオフに直面する。"
"本研究の主な貢献は、Thompson Samplingアルゴリズムのベイズ的レグレット上限を情報理論的手法を用いて解析し、特徴量の次元に関して改善された上限を示したことである。"
"ポリア-ガンマ分布を用いた近似TSアルゴリズムを提案し、その漸近的な一致性を示した。"