Core Concepts
各タスク内での誤差を最小化することが、後続タスクでのパフォーマンスを低下させる可能性がある。
Abstract
強い理論的保証を持つ静的環境では、実世界の実装では複雑さが過大評価されている。
リアルワールドRLタスクは順次到着し、変更が多い。
ローカルリグレット最小化アルゴリズムは、連続性を無視している可能性がある。
最適な累積リグレットバウンドを実現するためには、初期タスクで過剰な探索が必要。
未予測の変更に対処するためには、通常よりも多く探索する必要がある。
Stats
「初期タスクで過剰な探索が必要」という主張を支持する重要な数字やメトリックはありません。
Quotes
"完全な利用よりも初期タスクで過剰な探索は後続タスクで劣った結果につながる。"