Core Concepts
UCCBは、ポリシースペースで信頼区間を構築することで、一般的な関数クラスと大きなコンテキスト空間を扱うために最適かつ計算効率的な楽観主義アルゴリズムを提供します。
Abstract
楽観主義原則に基づく新しいアルゴリズムUCCBが紹介されています。
UCCBは、ポリシースペースで信頼区間を構築し、一般的な関数クラスと大きなコンテキスト空間を扱うことができます。
カウンターファクトリアル行動の発散の概念が導入され、具体例が示されています。
アルゴリズム2は有望な結果を提供し、問題の平均意思決定エントロピーに依存しています。
Stats
1{a = ai}
a⊤(∑[aia⊤i])−1a
κ2xϕ(x, a)⊤(∑[ϕ(x, ai)ϕ(x, ai)⊤])−1ϕ(x, a)
κ2xbx,a⊤(∑[bx,aib⊤x,ai])−1bx,a
Quotes
"UCCBは、ポリシースペースで信頼区間を構築することで、一般的な関数クラスと大きなコンテキスト空間を扱うために最適かつ計算効率的な楽観主義アルゴリズムを提供します。"