본 논문은 에이전트들이 서로 다른 환경에서 상호작용하는 연합 강화 학습 설정에서 빠른 수렴 속도를 달성하는 새로운 알고리즘 Fast-FedPG를 제안한다. Fast-FedPG는 편향 보정 및 드리프트 완화 메커니즘을 활용하여 전역 최적 정책에 수렴할 수 있음을 보여준다.