심층 강화 학습 정책은 결정론적 연속 제어 작업에서 작은 상태 변화에도 민감하게 반응하는 혼돈 현상을 보일 수 있으며, 이는 누적 보상의 불안정성과 예측 불가능성으로 이어진다. 본 논문에서는 이러한 문제를 해결하기 위해 리아프노프 지수 정규화를 활용하여 정책의 안정성을 향상시키는 방법을 제안한다.