Core Concepts
자연어 제약을 이해하고 이를 기반으로 안전한 정책을 학습하는 강화 학습 에이전트를 제안한다. 사전 학습된 언어 모델을 활용하여 제약 위반 여부를 예측하고, 이를 통해 에이전트가 제약을 준수하면서도 과제를 수행할 수 있도록 한다.
Abstract
이 논문은 안전한 강화 학습 문제를 다룬다. 기존의 안전한 강화 학습 방법은 제약을 수치화된 비용 함수로 정의해야 했지만, 이는 도메인 전문 지식이 필요하고 복잡한 과제에 적용하기 어려웠다. 이 논문에서는 사전 학습된 언어 모델을 활용하여 자연어 제약을 이해하고 제약 위반 여부를 예측하는 방법을 제안한다.
구체적으로, 디코더 언어 모델(GPT)을 사용하여 자연어 제약의 의미를 압축하고, 인코더 언어 모델(BERT)을 사용하여 제약과 관찰을 인코딩한 후 유사도를 계산하여 제약 위반 여부를 예측한다. 이렇게 예측된 비용을 활용하여 에이전트가 제약을 준수하면서도 과제를 수행할 수 있도록 정책을 학습한다.
실험 결과, 제안 방법은 격자 세계 탐색 과제와 로봇 제어 과제에서 우수한 성능을 보였다. 특히 기존 방법과 달리 사전 학습된 언어 모델을 활용하여 복잡한 자연어 제약을 처리할 수 있었다. 또한 제안 방법은 제약 위반 비용을 명시적으로 제공할 필요가 없어 적용 범위가 넓다.
Stats
에피소드당 평균 제약 위반 횟수가 3.2회로, 제약 없이 학습한 PPO 방법(6.8회)보다 훨씬 낮다.
제안 방법의 비용 예측 정밀도는 89.8%, 재현율은 98.0%, F1-score는 93.7%로 우수하다.
Quotes
"사전 학습된 언어 모델을 활용하여 복잡한 자연어 제약을 처리할 수 있었다."
"제안 방법은 제약 위반 비용을 명시적으로 제공할 필요가 없어 적용 범위가 넓다."