Core Concepts
CoCoRL은 알 수 없는 보상을 가진 시연으로부터 공유 제약을 추론하는 혁신적인 방법을 제안합니다.
Abstract
CoCoRL은 보증된 안전 세트를 구축하고 추론된 CMDP를 해결하기 위해 세 가지 단계로 구성됩니다.
이 연구는 안전성을 보장하고 새로운 작업이나 환경으로 제약을 전이하는 데 CoCoRL이 강력한 성능을 보여준다는 이론적 및 경험적 결과를 제시합니다.
Gridworld 환경에서 실험을 수행하여 CoCoRL이 안전한 정책을 일관되게 반환하고 더 많은 시연을 제공함에 따라 최고의 안전 솔루션으로 수렴함을 확인합니다.
주행 환경에서 실험을 통해 CoCoRL이 안전을 보장하고 충분한 수의 시연(약 200개)을 통해 높은 성과를 달성한다는 것을 확인합니다.
Stats
CoCoRL은 보증된 안전 세트를 구축합니다.
CoCoRL은 최적의 안전 솔루션으로 수렴합니다.
CoCoRL은 안전한 운전 행동을 이끌어내는 제약을 학습합니다.
Quotes
"CoCoRL은 보증된 안전 세트를 구축하고 추론된 CMDP를 해결하기 위해 세 가지 단계로 구성됩니다."
"이 연구는 안전성을 보장하고 새로운 작업이나 환경으로 제약을 전이하는 데 CoCoRL이 강력한 성능을 보여준다는 이론적 및 경험적 결과를 제시합니다."