核心概念
提案するアルゴリズムFGTS.CDSは、文脈依存デューリングバンディットの問題に対して、感情的トンプソンサンプリングを適用したものである。従来のUCBベースのアルゴリズムと比べ、より効率的に大規模な行動空間を扱うことができる。また、理論的にはミニマックス最適な後悔bound を達成する。
要約
本論文では、文脈依存デューリングバンディットの問題に対して、感情的トンプソンサンプリングを適用したアルゴリズムFGTS.CDSを提案している。
文脈依存デューリングバンディットとは、学習エージェントが文脈情報を利用しながら、2つの選択肢を比較し、ユーザの好みを学習する問題設定である。これまでUCBベースのアルゴリズムが提案されてきたが、トンプソンサンプリングを用いたアルゴリズムは存在しなかった。
提案するFGTS.CDSアルゴリズムの特徴は以下の通り:
- 感情的探索項を新たに導入し、デューリングバンディットの特性に合わせて設計している。これにより、従来のFGTSアルゴリズムと比べて、より効率的な探索が可能となる。
- 理論的に、ミニマックス最適な後悔boundを達成することを示している。これは、UCBベースのアルゴリズムと同等の性能を持つことを意味する。
- 行動空間が無限大の場合でも適用可能であり、計算効率が高い。これに対し、UCBベースのアルゴリズムでは行動空間の管理が複雑になる。
実験では、提案手法が既存手法と比べて大幅に優れた性能を示すことを確認している。
統計
特徴ベクトルの次元dが大きくなるほど、後悔は増加する。
特徴ベクトルの次元dが5、10、15の場合、提案手法FGTS.CDSの後悔は既存手法と比べて大幅に小さい。