Core Concepts
分散型部分観測マルコフ決定過程(Dec-POMDP)を用いて、2つの移動ターゲット間の通信リンクを確立するために、UAVの群れが協調して行動する問題を定式化した。また、グラフ畳み込み強化学習(DGN)に基づくマルチエージェント強化学習(MARL)アプローチを提案し、中央集権的ヒューリスティックと比較して良好な結果を得た。
Abstract
本論文では、2つの移動ターゲット間の通信リンクを確立するための分散型自律型群れ形成問題を扱っている。
問題設定:
2つの移動ターゲット(T1, T2)間の通信リンクを確立するために、N個のエージェントからなる群れを使用する。
エージェントは部分観測可能な環境で行動し、ネットワークトポロジーの変化に応じて協調的に行動する必要がある。
提案手法:
分散型部分観測マルコフ決定過程(Dec-POMDP)を用いて問題を定式化した。
グラフ畳み込み強化学習(DGN)に基づくマルチエージェント強化学習(MARL)アプローチを提案した。
エージェントは近隣エージェントとターゲットの潜在表現を共有し、時空間情報を活用して行動を決定する。
実験結果:
提案手法は中央集権的ヒューリスティックと比較して良好な結果を示した。
平均時間ステップカバレッジは63.88%、中央集権的ヒューリスティックは83.19%であった。
提案手法は分散型で柔軟性が高く、動的な環境に適応できる可能性がある。
今後の展望:
ネットワークシミュレーターとの統合により、より現実的なネットワーク要素を学習に取り入れる。
連続行動空間や確率的方策の活用により、より洗練された行動を学習する。
複数ターゲットを含む複雑なシナリオでの有効性を検証する。
Stats
提案手法の平均時間ステップカバレッジは63.88%
中央集権的ヒューリスティックの平均時間ステップカバレッジは83.19%
提案手法の平均総報酬は6494.13 ± 941.50
中央集権的ヒューリスティックの平均総報酬は8440.28 ± 490.58