PHLRL은 대규모 이질적 다중 에이전트 협력 문제를 해결하기 위해 다양한 정책을 탐색하는 리그 학습과 에이전트 유형 간 성능 차이를 보상하는 우선순위 정책 경사도 학습을 제안한다.