核心概念
提案された削減ベースのフレームワークは、遅延フィードバックを考慮した逐次意思決定問題において、サンプル効率の高いアルゴリズムを提供する。
摘要
この論文では、遅延フィードバックが含まれる一般的な逐次意思決定問題に焦点を当てています。提案された枠組みは、多くの問題に対応できるサンプル効率の高いアルゴリズムを提供します。具体的なアルゴリズムや理論的保証が示されており、異なる設定における結果も示されています。
統計資料
O( 1/q √H5SAι + H2nSdτ(q) log K)
O(√d3H4K + dH2dτ(q) log K)
O(√H5SAι + H2nSdτ(q) log K)
引述
"Our proposed reduction-based framework turns any multi-batched algorithm for sequential decision making with instantaneous feedback into a sample-efficient algorithm that can handle stochastic delays in sequential decision-making problems."
"We provide a complete set of sharp results for single-agent and multi-agent sequential decision-making problems with delayed feedback."
"Our main contribution is proposing a new reduction-based framework for both single-agent and multi-agent sequential decision making with stochastic delayed feedback."