核心概念
本論文では、バンディット問題に対するThompson Samplingベースのアルゴリズムを提案し、その理論的な性能保証を示す。特に、計算コストと性能のトレードオフを制御するパラメータを導入した2つのアルゴリズムを提案し、それらが優れた問題依存的な後悔界を達成しつつ、必要な計算リソースを大幅に削減できることを示す。
摘要
本論文は、ストキャスティックマルチアームバンディット(MAB)問題に対するThompson Samplingベースのアルゴリズムを提案し、その理論的な性能を分析している。
主な貢献は以下の2点:
-
Thompson Samplingアルゴリズムの理論的な解析の改善:
- 既存の問題依存的な後悔界の係数を大幅に改善し、より実用的な界を導出した。
- Thompson Samplingアルゴリズムが楽観主義的な探索(OFU)の原理に基づいていることを示した。
-
計算コストと性能のトレードオフを制御するパラメータを導入した2つの新しいアルゴリズムの提案:
- Thompson Sampling with Model Aggregation (TS-MA-α)
- 一度に複数のサンプルを生成し、最良のサンプルを使用することで、計算コストを大幅に削減できる。
- Thompson Sampling with Timestamp Duelling (TS-TD-α)
- 最適腕に対してはThompson Samplingを、サブ最適腕に対してはサンプリングを抑制することで、効率的にサンプリングリソースを割り当てる。
これらのアルゴリズムは、優れた問題依存的な後悔界を達成しつつ、必要な計算リソースを大幅に削減できることが理論的に示されている。
统计
最適腕の平均報酬と非最適腕の平均報酬の差を∆iと定義する。
Vanilla Thompson Samplingの問題依存的な後悔界は、
P
i:∆i>0 1270 ln(T∆2
i + 100^(1/3))/∆i + 182.5/∆i + ∆i
である。
TS-MA-αとTS-TD-αの問題依存的な後悔界は、
P
i:∆i>0 O(lnα+1(T)/∆i)
である。