본 연구에서는 기존의 안전한 강화학습 기법들의 한계를 극복하고자, 사전에 정의된 제약 조건 대신 데이터로부터 학습 가능한 제약 조건 모델을 제안하였다. 이를 통해 복잡한 실세계 환경에서의 장기 안전성을 보장하면서도 성능 향상을 달성할 수 있다.