본 논문은 다목적 강화학습 문제를 해결하기 위해 MGDA 기반의 혁신적인 행위자-비평가 알고리즘 MOAC를 제안하며, 이 알고리즘은 파레토 정상 수렴성과 샘플 복잡도에 대한 이론적 보장을 제공한다.