Core Concepts
本研究では、ドメイン知識を行動レベルに統合し、注意力メカニズムを活用することで、マルチエージェント強化学習の効率を向上させる新しい手法を提案する。
Abstract
本論文は、マルチエージェント強化学習(MARL)の効率を向上させるための新しい手法を提案している。
従来のMARLでは、エージェントが低レベルのスキルを頭から学習する必要があり、学習コストが高かった。
本手法では、ドメイン知識を高レベルのタスクとして事前に定義し、注意力メカニズムを用いてタスクを選択することで、学習効率を大幅に向上させる。
タスクジェネレータがドメイン知識に基づいて状況に応じたタスクを生成し、注意力ベースのポリシーがそれらのタスクから最適なものを選択する。
タスクからアクションへの変換は、専門知識に基づいて行われる。
標準的なMARLシナリオで実験を行った結果、従来手法と比べて学習効率が20%向上し、スケーラビリティと適応性も高いことが示された。
Stats
本手法は従来手法と比べて、MPEシングルスプレッド環境では平均報酬が16.6%向上し、SISLパーシュート環境では統計的に同等の最高平均報酬を達成した。