核心概念
本論文では、遅延に適応しつつ、マルコフ過程のサンプリングの下で並列エージェントの効果を最大限に引き出すことができる新しい確率近似アルゴリズム「DASA」を提案し、その収束性能を理論的に解析した。
要約
本論文では、N個のエージェントが中央サーバと協調して共通の確率近似(SA)問題を解くという設定を考える。エージェントからサーバへの通信には非同期かつ無界の時変遅延が存在する。
提案するDASAアルゴリズムでは、利用可能な遅延付きのオペレータを用いて、サーバがパラメータを更新する際に遅延に適応的に対応する。
理論的な収束解析の結果、DASAは最大遅延に依存せず、平均遅延とミキシング時間のみに依存する収束レートを持ち、かつマルコフ過程のサンプリングの下で並列エージェントの効果による線形の収束速度向上を実現することを示した。これは従来のアルゴリズムにはない特徴である。
シミュレーション結果により、DASAの優れた性能が確認された。
統計
遅延の平均値τavgは、1
NT
PT
t=1
PN
i=1 τi,tで定義される。
ミキシング時間τmixは、任意の状態θに対して、時刻tにおける条件付き期待値E[g(θ, oi,t)|oi,t-τmix]が定常期待値¯g(θ)に近づくことを表す。