本文提出了一種新的多智能體多環境混合 Q 學習算法,用於解決部分去中心化無線網路優化問題。主要貢獻如下:
提出了一種新的多智能體部分去中心化 MEMQ 算法。
提出了一種基於貝葉斯方法的聯合狀態估計方法,智能體根據本地觀測到的聚合接收信號強度(ARSS)來估計聯合狀態,並與領導智能體共享有限信息以最小化聯合成本。信息共享的成本與智能體數量線性增長,與聯合狀態-動作空間大小無關。
在具有多個移動發射器和基站的多智能體部分去中心化無線網路中模擬了該算法,捕捉了真實網路的關鍵特徵,如維度、複雜性和隱私。結果表明,該算法比中心化 MEMQ 快 50%,平均策略誤差(APE)只增加 20%,並且比幾種先進的去中心化 Q 學習算法快 25%,APE 降低 40%。還展示了該算法的快速收斂性和狀態估計算法的準確性。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問