Kernkonzepte
リスク感応型マルチエージェント強化学習では、単純に既存の後悔を使うと、最もリスク感応的なエージェントに有利な均衡バイアスが生じる。そのため、リスク感応性を考慮した新しい後悔の定義を提案し、これを最小化するアルゴリズムを開発した。
Zusammenfassung
本論文は、一般和マルコフゲームにおけるリスク感応型マルチエージェント強化学習を研究している。各エージェントはエントロピーリスク尺度を最大化するように行動する。
まず、既存の後悔の定義では、最もリスク感応的なエージェントに有利な均衡バイアスが生じることを示した。これは理論的にも実用的にも問題がある。
そこで、リスク感応性を考慮した新しい後悔の定義、「リスク均衡後悔」を提案した。この定義では、各エージェントのリスク感応性を対称的に扱うため、均衡バイアスの問題を解決できる。また、リスク均衡後悔に関する下限界を示した。
さらに、リスク感応型マルコフゲームのナッシュ均衡、相関均衡、粗相関均衡を学習するアルゴリズムを提案し、リスク均衡後悔に関して近最適な上限界を示した。これは、リスク中立の場合や単一エージェントの場合の既存結果を一般化したものである。
Statistiken
最もリスク感応的なエージェントのリスクパラメータをβ*とする。
ΦH(β) = 1/|β| (e|β|H - 1)は、リスク感応性を表す関数で、|β|が大きいほど指数関数的に増加する。
Zitate
"既存の後悔の定義では、最もリスク感応的なエージェントに有利な均衡バイアスが生じる可能性がある。"
"リスク感応性を考慮した新しい後悔の定義、「リスク均衡後悔」を提案した。"
"提案したアルゴリズムは、リスク均衡後悔に関して近最適な上限界を持つ。"