PPO 알고리즘의 비율 클리핑 연산은 신뢰 영역 제약을 효과적으로 강제하지 못할 수 있으며, 이는 알고리즘의 안정성에 영향을 미칠 수 있다. 이 논문에서는 이전 정책과 현재 정책 간 KL 발산에 대한 새로운 클리핑 방법을 도입한 단순 정책 최적화(SPO) 알고리즘을 제안한다.