Conceitos essenciais
ZSC-Eval は、未知のパートナーとの協調を評価するための包括的なツールキットとベンチマークを提供する。行動選好報酬を用いた評価パートナー候補の生成、Best Response Diversityに基づく評価パートナーの選択、Best Response Proximityによる協調能力の測定を行う。
Resumo
本論文は、Zero-shot Coordination (ZSC)の評価に関する課題を分析し、ZSC-Evalと呼ばれる包括的な評価ツールキットとベンチマークを提案している。
ZSC-Evalの主な特徴は以下の通り:
- 行動選好報酬を用いて、展開時のパートナーの分布を近似する評価パートナー候補を生成する。
- Best Response Diversityを最大化することで、多様な協調スキルを持つ評価パートナーを選択する。
- Best Response Proximityを用いて、汎化性能を含む総合的な協調能力を測定する。
ZSC-Evalを用いて、Overcooked環境とGoogle Research Football環境でZSC手法の性能を評価した。その結果、ZSC-Evalが現在の評価手法よりも一貫性のある評価結果を提供し、ZSC手法の課題を明らかにできることを示した。さらに、ZSC testbedの設計指針を提案し、現行のZSC手法が専門家レベルのパートナーと協調できないことを分析した。
Estatísticas
展開時のパートナーの分布は、報酬関数によって表現できると仮定している。
行動選好報酬は、イベントベースの報酬関数を用いて定義している。
Best Response Diversityは、ベストレスポンスの振る舞い特徴の多様性を表す行列式で定義している。
Best Response Proximityは、エージェントのパフォーマンスとベストレスポンスのパフォーマンスの類似度を表す指標である。
Citações
"Zero-shot coordination (ZSC) is a new cooperative multi-agent reinforcement learning (MARL) challenge that aims to train an ego agent to work with diverse, unseen partners during deployment."
"The significant difference between the deployment-time partners' distribution and the training partners' distribution determined by the training algorithm makes ZSC a unique out-of-distribution (OOD) generalization challenge."
"The potential distribution gap between evaluation and deployment-time partners leads to inadequate evaluation, which is exacerbated by the lack of appropriate evaluation metrics."