로봇 팔 시뮬레이션에서 안전한 강화 학습의 중요성과 효과적인 정책 학습 방법
자연어 제약을 이해하고 이를 기반으로 안전한 정책을 학습하는 강화 학습 에이전트를 제안한다. 사전 학습된 언어 모델을 활용하여 제약 위반 여부를 예측하고, 이를 통해 에이전트가 제약을 준수하면서도 과제를 수행할 수 있도록 한다.