核心概念
カーネル化された強化学習において、π-KRVIアルゴリズムは一般的なカーネルに対してサブリニアの後悔保証を提供する。
要約
カーネル化された強化学習におけるπ-KRVIアルゴリズムの提案とその性能評価。
状態行動価値関数の再現カーネルヒルベルト空間(RKHS)を使用した非線形関数近似。
最初の次数最適な後悔保証を実証。
Matérnカーネルでのサブリニア後悔境界の示唆。
Introduction
強化学習(RL)は複雑なモデルや大規模な状態行動空間で実世界で成功を収めている。
既存の解析結果は、小さな状態行動数や単純なモデルに焦点を当てている。
Kernelized Reinforcement Learning
π-KRVIは再生カーネルヒルベルト空間(RKHS)で表現された状態行動価値関数に対する楽観的変更を提案する。
最初の次数最適な後悔保証が一般的な設定下で示される。
Domain Partitioning Policy
π-KRVIポリシーはドメイン分割カーネルリッジ回帰に基づく最小二乗値反復ポリシーを採用している。
ドメイン分割により、より厳密な信頼区間が得られ、結果としてより厳密な後悔境界が得られる。
統計
Matérnファミリー:T ν+d / 2ν+d の下限バウンド
引用
"我々の提案したポリシー、π-KRVIは一般的なカーネルに対してサブリニアの後悔保証を達成します。"
"Matérnファミリーの場合、我々の後悔境界は特別ケースであるkernelized bandits向けScarlett et al. (2017) の下限バウンドと一致します。"