Core Concepts
複数の制約条件を満たすよう、異なる環境に位置する複数のエージェントが協調的に学習するモデルを提案する。
Abstract
本論文は、連邦強化学習(FedRL)における制約の異質性について研究している。
複数の制約条件を満たすことが目標であるが、各エージェントは異なる制約条件にしか接することができない。
提案手法は以下の通り:
各エージェントが自身の局所的なラグランジュ関数を用いて局所的な方策更新を行う。
定期的に各エージェントの方策を共有し、集約することで全ての制約条件を満たす方策を学習する。
FedNPGアルゴリズムでは、自然方策勾配を用いた理論的な収束性を示した。
FedPPOアルゴリズムでは、深層ニューラルネットワークを用いた複雑な課題でも良好な性能を示した。
Stats
各エージェントが観測できる制約条件の数は1つのみ
全ての制約条件を満たす最適な方策の報酬は Jr(π*)
Quotes
"複数の制約条件を満たすよう、異なる環境に位置する複数のエージェントが協調的に学習するモデルを提案する。"
"各エージェントが自身の局所的なラグランジュ関数を用いて局所的な方策更新を行う。"
"定期的に各エージェントの方策を共有し、集約することで全ての制約条件を満たす方策を学習する。"