本論文では、オンラインバイナリ予測の文脈で予測の最大スワップ後悔(MSR)を研究する。MSRは、あらゆる報酬制限付きの意思決定タスクにおける最大のスワップ後悔を表す指標である。
これまでの研究では、K1校正誤差を最小化することで、MSRを定数倍の範囲内で抑えられることが知られていた。しかし、K1校正誤差の下限がΩ(T^0.528)であることが示されており、MSRをより良い速度で抑えるには新しいアプローチが必要だと考えられていた。
本論文では、任意の報酬制限付きの意思決定タスクに対してMSRをO(√T log T)に抑えられるランダムアルゴリズムを提案する。これは、Ω(√T)の下限に対数因子の範囲内で最適である。また、このアルゴリズムは多項式時間で実行可能である。
提案手法の鍵となるのは、MSRがK1校正誤差よりも小さくなることが多いという観察である。具体的には、各予測バケットの寄与をうまく抑えられることを示す補題を証明し、それを用いてMSRの上界を導出する。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések