Core Concepts
状態の不確実性に対処するために、ロバストな代理人ポリシーを最大化することが重要である。
Abstract
本論文では、状態に対する敵対的な多エージェント強化学習(SAMG)の問題を提案し、その基本的な性質を調査している。従来の最適代理人ポリシーやロバストなナッシュ均衡といった解決概念は、SAMGでは常に存在しないことを示した。そのため、最悪ケースの期待状態価値を最大化するロバストな代理人ポリシーという新しい解決概念を提案し、その存在を証明した。さらに、RMA3Cアルゴリズムを提案し、状態の不確実性に対するエージェントのロバスト性を向上させることができることを実験的に示した。
具体的には以下の通り:
SAMGを定式化し、最適な敵対者ポリシーの存在を示した。
状態ロバスト最適代理人ポリシーやロバストなナッシュ均衡が常に存在しないことを証明した。
最悪ケースの期待状態価値を最大化するロバストな代理人ポリシーという新しい解決概念を提案し、その存在を証明した。
RMA3Cアルゴリズムを提案し、状態の不確実性に対するエージェントのロバスト性を向上させることができることを実験的に示した。
Stats
状態の不確実性の下でも、RMA3Cアルゴリズムは最大46.56%高い平均エピソード報酬を達成した。
最適な敵対者ポリシーを使用した場合、RMA3Cアルゴリズムは最大54.02%高い平均エピソード報酬を達成した。
Quotes
"状態ロバスト最適代理人ポリシーやロバストなナッシュ均衡は、SAMGでは常に存在しない。"
"最悪ケースの期待状態価値を最大化するロバストな代理人ポリシーという新しい解決概念を提案し、その存在を証明した。"
"RMA3Cアルゴリズムは、状態の不確実性に対するエージェントのロバスト性を向上させることができる。"