비평활 계약 SA와 Q-learning 알고리즘의 정상 상태 수렴을 약 수렴 거리로 보이고, 편향의 특성을 제시한다. 특히 비평활성으로 인해 편향이 제곱근 스텝 크기에 비례하는 것을 밝힌다.