이 논문은 상태 및 제어 변수에 의존하는 확산 계수를 가진 연속 시간 선형-2차 강화 학습 문제에 대해 모델 프리 접근법을 제안하고 있다. 제안된 알고리즘은 정책 경사 기반 액터-크리틱 알고리즘이며, 정책 매개변수의 수렴 속도와 아 하위 선형 후회 한계를 제공한다.