제안된 단일 루프 딥 액터-크리틱 (SLDAC) 알고리즘은 비볼록 확률적 제약 조건과 환경과의 상호 작용 비용이 높은 일반적인 제약 강화 학습 문제를 해결할 수 있으며, 초기 실행 가능한 점에서 KKT 점으로 수렴할 수 있음을 이론적으로 보장한다.