本論文は、多主体強化学習における価値因子分解の理論と実装の間のギャップを解消し、より効果的な因子分解アルゴリズムを提案する。具体的には、状態情報を活用した価値因子分解の理論的分析を行い、状態情報の使用が学習バイアスを引き起こさないことを示す。さらに、デュアルネットワークを活用した新しい因子分解アルゴリズムDuelMIXを提案し、従来手法よりも優れた性能を示す。
本論文では、多主体設定における4つの代理人の許可形式を提案し、それらの相互関係を明らかにする。
相関均衡(CE)とその一般化である粗相関均衡(CCE)は、n人一般和ゲームにおいて計算可能で魅力的な解概念である。本研究では、CEとCCEをメタソルバーとして用いた多主体学習アルゴリズムJPSROを提案し、その収束性を示した。また、最大ジニ相関均衡(MGCE)という新しい解概念を提案し、その計算効率性と望ましい性質を明らかにした。
エージェントの効用関数に資源ペナルティ項を含むことで、エージェントが大きな意見を持つことを制限する。エージェントの相対的資源は、エージェントの頑固さと社会的影響力に影響する。
外部観察者が、各主体の非公開の行動-反応マッピングを反復的に推定することで、多主体相互作用プロセスの定常的な行動プロファイルを正確に予測することができる。