이 논문은 평균 보상 반감 마르코프 의사결정 과정에서 사용되는 비동기 확률적 근사 알고리즘의 안정성과 수렴성을 연구한다. 또한 이러한 이론적 결과를 활용하여 새로운 상대 가치 반복 Q-러닝 알고리즘을 제안하고 그 수렴성을 입증한다.