この研究は、制御エージェントの意思決定を改善するために、新しい多エージェント分布型アクター・クリティック(DOMAC)アルゴリズムを提案しています。DOMACでは、仮想的な相手モデルが制御エージェントの観測情報を受け取り、相手の情報が利用できない場合でも相手モデリングを実現します。分布型クリティックの指導のもと、俳優と相手モデルを効果的に訓練することができます。幅広い実験では、DOMACは他の3つの基準線よりも高い平均収益率を達成し、収束速度も速くなっています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jing Sun,Shu... at arxiv.org 03-07-2024
https://arxiv.org/pdf/2211.11940.pdfDeeper Inquiries