Alapfogalmak
カーネル化された強化学習において、π-KRVIアルゴリズムは一般的なカーネルに対してサブリニアの後悔保証を提供する。
Statisztikák
Matérnファミリー:T ν+d / 2ν+d の下限バウンド
Idézetek
"我々の提案したポリシー、π-KRVIは一般的なカーネルに対してサブリニアの後悔保証を達成します。"
"Matérnファミリーの場合、我々の後悔境界は特別ケースであるkernelized bandits向けScarlett et al. (2017) の下限バウンドと一致します。"