핵심 개념
単峰構造を持つバンディット問題において、最良アームを効率的に識別するためのアルゴリズムを提案し、その性能を理論と実験の両面から検証する。
本論文は、平均値が単峰構造を持つ多腕バンディット問題において、最良アームを固定信頼度で識別する問題を考察しています。
単峰構造: アームの平均値が、あるアームをピークに増加しその後減少する構造を持つことを指します。
固定信頼度: 誤ってアームを識別する確率を一定値(δ)以下に抑えながら、最良アームを識別することを指します。
本論文では、単峰構造を活かした3つのアルゴリズムを提案しています。
1. U-TaS (Unimodal Track-and-Stop)
従来のTrack-and-Stopアルゴリズムを単峰構造に適応させたアルゴリズムです。
各ラウンドで経験的な平均値に基づいて最適なアーム選択を行い、効率的に探索を行います。
2. O-TaS (Optimistic Track-and-Stop)
UCBアルゴリズムのように楽観的な推定値を用いることで、探索を促進するアルゴリズムです。
単峰構造を考慮した信頼区間を用いることで、効率的に探索範囲を絞り込みます。
3. UniTT (Unimodal Top Two)
最良候補アームとその隣のアームのみを比較することで、探索範囲を限定するアルゴリズムです。
計算コストが低く、理論的な性能保証も備えています。