この研究は、制御エージェントの意思決定を改善するために、新しい多エージェント分布型アクター・クリティック(DOMAC)アルゴリズムを提案しています。DOMACでは、仮想的な相手モデルが制御エージェントの観測情報を受け取り、相手の情報が利用できない場合でも相手モデリングを実現します。分布型クリティックの指導のもと、俳優と相手モデルを効果的に訓練することができます。幅広い実験では、DOMACは他の3つの基準線よりも高い平均収益率を達成し、収束速度も速くなっています。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문