Concepts de base
本論文提出了FedSARSA算法,這是一種新穎的連邦版本的線性SARSA算法。我們提供了FedSARSA的詳細非漸近性能分析,證明了在異質環境下,FedSARSA可以有效地加速每個代理的學習過程,並達到近最優的性能。
Résumé
本論文提出了FedSARSA,一種新的連邦版本的線性SARSA算法,用於解決連邦強化學習(FRL)中的規劃問題。FRL是一種分散式學習框架,結合了強化學習(RL)和連邦學習(FL)的原理,在各種實際應用中都有廣泛應用。
在FedSARSA中,每個代理獨立探索自己的環境,並使用觀察結果來更新自己的策略。代理定期與中央服務器通信,將參數進度發送給服務器,服務器將這些參數聚合後發送回給每個代理。
本文的主要貢獻包括:
異質性分析:我們提出了一個實際的FRL規劃問題,其中代理在異質環境中運行,導致最優策略的異質性。我們提供了最優參數之間的顯式界限,證明了協作的好處。
FedSARSA算法及其有限樣本複雜度:我們引入了FedSARSA算法,並建立了其有限時間誤差界,達到了最先進的樣本複雜度。這是第一個針對FRL問題的可證明樣本有效的on-policy算法。
收斂區域表征和線性加速:我們證明,使用恒定步長時,連邦學習使FedSARSA能夠指數收斂到包含每個代理最優策略的小區域,其半徑隨代理數量的增加而收縮。對於線性遞減步長,學習過程通過連邦協作享有線性加速:有限時間誤差隨代理數量的增加而減小。
Stats
每個代理的最優參數之間的距離上界為O(ϵp + ϵr)/(1-γ),其中ϵp和ϵr分別表示轉移核和獎勵的異質性。
使用恒定步長時,FedSARSA指數收斂到一個半徑為O(ϵp + ϵr)/(1-γ)的區域。
使用線性遞減步長時,有限時間誤差為O(K^2+τ^5/(1-γ)^2T^2 + τ/(NT) + (ϵp + ϵr)^2/H^2),其中K是同步週期,τ是回溯期,T是迭代次數,N是代理數量,H是問題常數。
Citations
"通過連邦協作,每個代理仍然能以O(1/NT)的加速率收斂到一個半徑為O(ϵp + ϵr)的球內,這個球包含了該代理的最優參數。"
"這是連邦規劃領域的首次此類結果,補充了連邦優化領域大量類似的結果。"