Core Concepts
안전 제약이 상태-행동 쌍에 의존하는 것이 아니라 전체 궤적에 의존하는 경우, 이를 학습하고 이를 준수하는 강화 학습 정책을 최적화하는 방법을 제안한다.
Abstract
이 논문은 안전 제약이 비마르코프 과정에 의해 결정되는 강화 학습 문제를 다룬다. 기존의 강화 학습 방법은 안전 비용이 현재 상태-행동 쌍에만 의존한다고 가정하지만, 실제로는 과거 상태-행동 궤적 전체에 의존할 수 있다.
이를 해결하기 위해 저자들은 다음과 같은 접근법을 제안한다:
안전 모델을 설계하여 상태-행동 궤적 전체에 대한 안전 확률을 예측할 수 있게 한다. 이 모델은 레이블이 있는 안전 데이터셋을 사용하여 학습된다.
강화 학습-추론 전략을 사용하여 학습된 안전 모델을 활용하는 효과적인 알고리즘(SafeSAC-H)을 도출한다.
안전 제약 준수 정도를 동적으로 조절할 수 있는 방법을 제안한다.
실험 결과, 제안된 SafeSAC-H 알고리즘이 복잡한 비마르코프 안전 제약을 효과적으로 준수하면서도 높은 보상을 달성할 수 있음을 보여준다.
Stats
안전한 궤적의 비율이 90% 이상이 되도록 제약을 설정하였다.
제안된 SafeSAC-H 알고리즘은 대부분의 태스크에서 이 제약을 만족하며 높은 보상을 달성하였다.
반면 기존 방법인 SAC와 SafeSAC-NoH는 제약을 만족하지 못하였다.
Quotes
"안전 제약이 상태-행동 쌍에 의존하는 것이 아니라 전체 궤적에 의존하는 경우, 이를 학습하고 이를 준수하는 강화 학습 정책을 최적화하는 방법을 제안한다."
"실험 결과, 제안된 SafeSAC-H 알고리즘이 복잡한 비마르코프 안전 제약을 효과적으로 준수하면서도 높은 보상을 달성할 수 있음을 보여준다."