本研究では、相対的過剰一般化(RO)に悩まされる協調的マルチエージェントタスクを解決するために、カリキュラム学習を活用した手法を提案している。
まず、ROが発生しやすい目標タスクに対して、罰則項の大きさを段階的に減らすことで、ROが発生しにくい段階的なソーステスクを生成する。次に、ソーステスクで獲得した知識を効果的に目標タスクに転移させるために、価値関数の転移とバッファの転移を組み合わせた手法を用いる。
提案手法は、価値ベースのマルチエージェント強化学習手法(QMIX)と方策勾配のマルチエージェント強化学習手法(HAPPO、HATRPO)に適用され、部分観測可能な捕食者-獲物タスクやStarCraft Multi-Agent Challenge、Multi-Agent MuJoCo環境などの様々な協調的マルチエージェントタスクにおいて、既存手法を大きく上回る性能を示した。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문