核心概念
提案されたアルゴリズムは、非定常性とバイアスのあるフィードバックにもかかわらず、効果的に探索を促進します。
統計
DUCBアルゴリズムはγC = 10でRegret: 135.1, Compensation: 53.2 を達成。
SWUCBアルゴリズムはτC = 0.9でRegret: 203.5, Compensation: 70.7 を達成。
DUCBアルゴリズムはγC = 40でRegret: 264.1, Compensation: 95.1 を達成。
SWUCBアルゴリズムはτC = 1でRegret: 330.1, Compensation: 107.9 を達成。
引用
"提案されたアルゴリズムは、非定常性やドリフトしたフィードバックにもかかわらず、サブリニア後悔と補償を実現しています。"
"急速な変化がある場合でも、DUCBおよびSWUCBが最適な結果を示しています。"