本論文では、ネットワーク構造を活用したゼロ次元ブロック座標降下法に基づく分散型強化学習アルゴリズムを提案する。各エージェントは独立に局所コストを評価し、局所勾配を推定することで、大規模ネットワークにおける高分散の問題を解決する。提案手法は非同期的なサンプリングと更新を行い、非凸な目的関数と非凸な可能領域に対して収束性を示す。さらに、モデルフリーの分散型LQR制御問題への適用を示し、中央集権型手法と比較して優れた性能を実証する。


coremsg

分散型非同期強化学習によるlqr制御の実現-ゼロ次元ブロック座標降下法の活用


分散型非同期強化学習によるLQR制御の実現 - ゼロ次元ブロック座標降下法の活用