Core Concepts
論文は、完全分散型MARLポリシー評価におけるサンプルと通信の複雑さを低減するための新しいアプローチが有効であることを示しています。
Abstract
MARLポリシー評価における重要な課題は、サンプル数と通信ラウンド数を低減することです。
ローカルTD更新ステップの使用が通信複雑さを低減することが示されました。
バッチングアプローチよりもサンプル複雑さが優れています。
実験結果では、ローカルTD更新アプローチが収束速度で優れていることが示されました。
Stats
MARL-PEにおけるO(1/𝜖1/2 log (1/𝜖))のローカルTD更新ステップによって通信複雑さを低減します。