Core Concepts
本研究では、報酬に重い裾野を持つ新しい低ランク行列バンディット問題を提案し、この問題に対する効率的なアルゴリズムを開発した。提案手法は、重い裾野に頑健な推定量を用いて、探索と活用のバランスを取りながら最適な regret 上界を達成する。さらに、ランク rが未知の場合でも良好なパフォーマンスを示す改良版アルゴリズムを提案した。
Abstract
本研究では、重い裾野を持つ報酬を伴う新しい低ランク行列バンディット問題を提案した。従来の研究では、報酬に対して厳しい sub-Gaussian ノイズ仮定を置いていたが、本研究ではこの仮定を緩和し、報酬が有限の (1 + δ) 次モーメントを持つ一般的な重い裾野を許容した。
具体的には以下の貢献がある:
重い裾野に頑健な Huber 型の低ランク行列推定量を提案し、その統計的性質を明らかにした。これは、報酬が任意の重い裾野を持つ trace 回帰問題に対する初めての解決策である。
提案の LOTUS アルゴリズムは、推定された部分空間を活用しつつ、探索と活用のバランスを取ることで、未知の時間 T に対して ˜O(d^(3/2)r^(1/2)T^(1/(1+δ))/D_rr) の regret 上界を達成する。ここで、D_rr は Θ^* の r番目の特異値である。
提案手法の regret 下界を導出し、LOTUS が T に関して最適に近いことを示した。
ランク rが未知の場合でも良好なパフォーマンスを示す改良版 LOTUS を提案した。この手法は、推定された特異値を適応的にしきい値処理することで、ランクを推定しつつ、˜O(dr^(3/2)T^((1+δ)/(1+2δ)) + d^(3/2)r^(1/2)T^(1/(1+δ))) の regret 上界を達成する。
以上の理論的な貢献に加え、シミュレーション実験でも提案手法の優位性を確認した。
Stats
報酬の (1 + δ) 次モーメントは有限であり、δ ∈ (0, 1] が成り立つ。
行列 Θ^* のフロベニウスノルムは S 以下である。
任意の時刻 t と腕 X ∈ X_t について、||X||_F ≤ S が成り立つ。
Quotes
"本研究は、報酬に重い裾野を持つ新しい低ランク行列バンディット問題を提案し、この問題に対する効率的なアルゴリズムを開発した。"
"提案の LOTUS アルゴリズムは、推定された部分空間を活用しつつ、探索と活用のバランスを取ることで、未知の時間 T に対して最適に近い regret 上界を達成する。"
"ランク rが未知の場合でも良好なパフォーマンスを示す改良版 LOTUS を提案した。"