이 논문은 Q-러닝의 수렴 속도 향상과 과대 추정 편향 문제를 해결하기 위해 이중 연속 과대 이완 Q-러닝 알고리즘을 제안한다. 제안된 알고리즘은 모델 기반이 아닌 모델 프리 방식으로 구현되며, 이론적 및 실험적 분석을 통해 기존 SOR Q-러닝 알고리즘보다 편향이 적음을 보인다. 또한 심층 강화 학습 버전으로 확장하여 대규모 문제에 적용할 수 있음을 보인다.