이종 Markov 의사결정 과정(MDP)에서 작동하는 가치 기반 에이전트를 위한 수렴 인식 적응형 샘플링 전략을 제안한다. 이 전략은 에이전트 간 가치 함수의 수렴 경향을 활용하여 유사한 MDP에 속한 에이전트를 선별하고, 추가적인 성능 기반 스크리닝 과정을 통해 우수한 에이전트를 선별적으로 통합한다. 이를 통해 개별 에이전트의 학습 효율을 크게 향상시킬 수 있다.