この研究は、制御エージェントの意思決定を改善するために、新しい多エージェント分布型アクター・クリティック(DOMAC)アルゴリズムを提案しています。DOMACでは、仮想的な相手モデルが制御エージェントの観測情報を受け取り、相手の情報が利用できない場合でも相手モデリングを実現します。分布型クリティックの指導のもと、俳優と相手モデルを効果的に訓練することができます。幅広い実験では、DOMACは他の3つの基準線よりも高い平均収益率を達成し、収束速度も速くなっています。
翻譯成其他語言
從原文內容
arxiv.org
深入探究