Konsep Inti
未知の安全制約を満たしながら、後悔を最小化するためのオンライン学習アルゴリズムを提供します。
Abstrak
この論文は、オンライン学習において、毎ラウンドで未知の安全制約に従う必要がある問題を考察しています。安全性、情報取得、後悔最小化のトレードオフを探求し、具体的なアルゴリズムと理論的結果を提供しています。さらに、多数の関連論文や適用例も言及されています。
Statistik
RegretT ≤ inf( T X t=1 Vt(κ) + κ inf α (αT + RegOR(T, δ, F)E(F, α)) + RegOL(T, δ)
O(√T) bound for linear constraints algorithm.
E(F, α) denotes the eluder dimension of F.
RegOR(T, δ, F) denotes the regret bound guaranteed by the online regression oracle on F.
ℓ(at, xt, yt) = y⊤a loss function used in linear settings.
∆F(a) := supf,f′∈F f(a) − f ′(a).
Ω(G) as the set of distributions over G.
f = O(g), f = o(g) notation for functions comparison.
Kutipan
"Online learning is a key tool for many sequential decision making paradigms."
"Our goal is to design algorithms that can simultaneously minimize regret while strictly adhering to the safety constraint at all time steps."
"We introduce a complexity measure that precisely captures this inherent per-step tension between regret minimization and information acquisition with respect to the safety constraint."