大規模言語モデル(LLM)ベースのエージェントが協力してタスクを効率的に完了できるように、長期的な戦略的計画と進捗状況に応じた計画適応を組み合わせた新しいフレームワーク、CaPoが提案されている。
ノイズの多い環境下でのマルチエージェント強化学習の課題に対し、ノイズ分布をガウス混合モデルで近似し、各エージェントが個別に学習可能な局所的な報酬分布に分解することで、安定した学習と性能向上を実現する手法を提案する。
本稿では、マルチエージェント強化学習におけるクレジット割り当て問題に取り組み、部分報酬デカップリング(PRD)を用いた新しいアルゴリズムであるPRD-MAPPOを提案する。PRD-MAPPOは、エージェントの学習における無関係なエージェントからの影響を排除することで、従来のMAPPOよりも学習効率と安定性を大幅に向上させる。
JaxMARLは、一般的なMARL環境とアルゴリズムをJAXで実装したオープンソースライブラリであり、GPUアクセラレーションを活用することで、従来のCPUベースの実装と比較して大幅な高速化を実現し、MARL研究の効率性と評価の質を向上させる。
本稿では、複雑なタスクを複数のサブタスクに分解し、各サブタスクの達成状況に応じて報酬を与える論理的報酬シェーピングを用いることで、マルチエージェントが協力して複雑なタスクを効率的に学習する手法を提案している。
マルチエージェント強化学習(MARL)において、従来のTransformerモデルに代わる、選択的状態空間モデル(SSM)を用いた新しいアーキテクチャであるMulti-Agent Mamba(MAM)は、優れたスケーラビリティと計算効率を提供しながら、Transformerモデルと同等の性能を実現できる。
利己的なエージェント間の協力を実現するために、新しい学習認識型強化学習アルゴリズムであるCOALA-PGを提案する。COALA-PGは、他のエージェントの学習ダイナミクスを考慮することで、従来の方法では困難であった協力行動の出現を促進する。
本稿では、マルチエージェント協力における個別目標と集団目標の調整という課題に対し、利他的勾配調整(AgA)と呼ばれる新しい最適化手法を提案しています。AgAは、勾配調整を用いることで、個別目標と集団目標を段階的に整合させ、集団目標の安定した固定点に向かって勾配を効果的に引き寄せます。
マルチエージェント強化学習において、エージェント間の効率的なコラボレーションを実現するために、エージェント間の相互作用をグラフとしてモデル化し、因子ベースのマルチエージェントトランスフォーマー(f-MAT)を用いることで、従来の手法よりも優れた性能と学習効率を実現できる。
インテリジェント倉庫におけるタスク割り当てと経路探索 (TAPF) 問題を、協調型マルチエージェント深層強化学習 (RL) の観点から同時に解決する新しい手法が提案されている。