Core Concepts
안전한 강화 학습 정책과 알려지지 않은 안전 제약 조건을 동시에 학습하는 혁신적인 방법 소개
Abstract
강화 학습은 다양한 도메인에서 의사 결정을 혁신적으로 변화시켰으며, 안전한 강화 학습 정책을 실제 환경에 배치하는 것은 안전을 보장하는 중요한 도전이다.
기존의 안전한 강화 학습 방법은 사전에 정의된 안전 제약 조건을 통합하여 정책 설계를 기반으로 하지만, 동적이고 예측할 수 없는 실제 환경에서는 이러한 제약 조건이 제한적일 수 있다.
이 연구는 새로운 접근 방식을 제안하여 안전한 강화 학습 제어 정책을 동시에 학습하고 주어진 환경의 알려지지 않은 안전 제약 조건 매개변수를 식별한다.
실험 결과는 이 방법이 다양한 환경 제약 조건에서 효과적임을 입증하며, 안전한 강화 학습 정책을 안정적으로 생성한다.
이 연구는 안전 학습, 명세 지향 강화 학습, STL 채굴에 대한 중요한 기여를 제공한다.
Stats
초기 데이터셋 Ds와 Dus를 사용하여 최적 매개변수를 찾기 위해 BO를 사용하여 최적 매개변수를 찾습니다.
TD3-Lagrangian을 사용하여 안전 정책을 최적화합니다.
학습된 STL 안전 제약 조건에 대한 정확성을 검증하기 위해 레이블링된 데이터와 비교합니다.
Quotes
"안전한 강화 학습 정책과 알려지지 않은 안전 제약 조건을 동시에 학습하는 혁신적인 방법 소개"
"이 연구는 새로운 접근 방식을 제안하여 안전한 강화 학습 제어 정책을 동시에 학습하고 주어진 환경의 알려지지 않은 안전 제약 조건 매개변수를 식별한다."