本論文は、多目的強化学習(MORL)問題に対して、理論的保証を持つ新しいアクター・クリティック型アルゴリズムMOACを提案する。MOACは、パレート定常解への有限時間収束と標本複雑性の保証を備えている。
単一のニューラルネットワークを用いて、多目的強化学習問題におけるパレート最適解集合を効率的に学習する、潜在条件付き政策勾配法(LC-MOPG)を提案する。