본 논문은 로봇 상태 제약 조건을 보장하는 폐루프 제어 정책을 학습하는 새로운 강화학습 프레임워크 POLICEd RL을 제안한다. POLICEd RL은 상태 공간 주변에 완충 영역을 만들어 제약 조건을 만족하도록 정책을 학습한다.