本論文は、多主体強化学習における価値因子分解の理論と実装の間のギャップを解消し、より効果的な因子分解アルゴリズムを提案する。具体的には、状態情報を活用した価値因子分解の理論的分析を行い、状態情報の使用が学習バイアスを引き起こさないことを示す。さらに、デュアルネットワークを活用した新しい因子分解アルゴリズムDuelMIXを提案し、従来手法よりも優れた性能を示す。