本論文では、大規模ヘテロジニアス多エージェントシステムにおける協調問題に取り組むため、優先順位付けリーグ強化学習(PHLRL)手法を提案している。
PHLRL の主な特徴は以下の通りである:
リーグ学習: 多様なポリシーを持つエージェントとの協調を通じて、ロバストな協調ポリシーを学習する。リーグはエージェントの過去のポリシーを保持し、新しいポリシーの最適化に活用する。
優先順位付けポリシー勾配: 異なるエージェントタイプ間の性能差を補償するため、サンプルの優先順位付けを行う。これにより、重要なエージェントタイプの学習を安定化させる。
実験では、大規模ヘテロジニアス協調タスクベンチマーク(LSHC)を用いて、PHLRL が既存手法に比べて優れた性能を示すことを確認した。また、PHLRL は大規模な問題設定にも適用可能であることを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Qingxu Fu,Zh... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18057.pdfDeeper Inquiries