核心概念
本研究では、パラメータ共有型の強化学習フレームワークに異種エージェントの特性を組み込むことで、ゼロショット可能な拡張性のある協調を実現する。
要約
本論文は、多様な協力者との協調を実現するための強化学習フレームワークを提案している。
提案手法は、パラメータ共有型の強化学習アルゴリズムに異種エージェントの特性を組み込むことで、ゼロショット可能な拡張性を実現する。
具体的には、エージェントごとの戦略パターンを表す潜在変数を適応的に学習し、それに基づいて各エージェントの意思決定層のパラメータを生成する。
これにより、エージェント間の異質性と時間的な異質性の両方を獲得できる。
実験では、StarCraft Multi-Agent Challenge (SMAC)とGoogle Research Football (GRF)の環境で提案手法の有効性を示している。
提案手法は、既存手法に比べて優れたゼロショット可能な拡張性を示し、チームパフォーマンスの向上に寄与する異質性の学習を実現している。
統計
本研究では、ゼロショット可能な拡張性を実現するために、エージェントごとの戦略パターンを表す潜在変数を適応的に学習している。
提案手法は、既存手法に比べて優れたゼロショット可能な拡張性を示している。例えば、SMAC環境のMMM2タスクでは、提案手法の勝率が71.2%であるのに対し、既存手法のHAPPOは76.3%、HAPPO (share)は31.2%、MAPPO (share)は62.7%、HATRPO (share)は6.8%である。
引用
"本研究では、パラメータ共有型の強化学習フレームワークに異種エージェントの特性を組み込むことで、ゼロショット可能な拡張性のある協調を実現する。"
"提案手法は、エージェント間の異質性と時間的な異質性の両方を獲得できる。"