深層強化学習における多エージェントの評価フレームワーク
深層多エージェント強化学習アルゴリズムの評価は、訓練時の確率性と他エージェントの振る舞いに対する感度のため複雑である。本研究では、各深層多エージェント強化学習アルゴリズムをメタ戦略として捉え、異なるランダムシードの組み合わせから生成される経験的ゲームを反復的にサンプリングすることで、メタゲーム評価フレームワークを提案する。この経験的ゲームは自己対戦と他エージェントとの対戦の両方の要因を捉える。さらに、ブートストラップ手法を用いて、様々な指標の統計的特性を導出する。