본 연구는 동적이고 분산된 환경에서 다중 목적 최적화를 위한 효율적이고 계산량이 적은 다중 에이전트 강화 학습 알고리즘을 제안한다. 이 알고리즘은 희소하고 지연된 보상이 있는 환경에서 자동으로 적응형 소량 학습을 트리거하여 변화하는 목적을 최적화할 수 있다.