本論文は、ワイヤレス通信ネットワークの資源割り当て問題に対して、新しい分散型の多エージェント強化学習(MARL)アプローチを提案している。
まず、ワイヤレスネットワークを競合グラフと cellular ネットワークの2つのモデルで表現する。競合グラフモデルでは、各エージェントが個別のセルを制御し、限られた局所情報に基づいて周波数とパワーの割り当てを決定する。cellular ネットワークモデルでは、各アクセスポイント(AP)が自身のセル内の端末の割り当てと送信パワーを決定する。
両モデルにおいて、目的は端末の平均パケット遅延を最小化することである。これは、従来の研究が主に throughput 最大化を目的としていたのに対し、ユーザ体験の観点から重要な指標である。
提案手法では、分散型の学習と実行を実現するため、Dec-POMDP-IR (Decentralized Partially Observable Markov Decision Process with Individual Rewards)フレームワークを採用する。各エージェントは局所情報に基づいて意思決定を行い、個別の報酬を得る。具体的には、recurrent neural network を用いた multi-agent proximal policy optimization (MAPPO) アルゴリズムを適用する。
提案手法は、中央集権的な手法と比べて遜色ない QoS 性能を示しつつ、大規模ネットワークにも容易に適用可能な分散型のアプローチである。シミュレーション結果により、提案手法の有効性と堅牢性が実証されている。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询