이 연구는 로봇이 위험을 이해하고 안전하게 행동할 수 있도록 하는 분포 강화 학습 기법을 제안한다. 기존의 강화 학습 기법은 위험을 명시적으로 모델링하지 않아 위험한 상황에서 적절히 대응하지 못하는 문제가 있었다.
이 연구에서는 분포 강화 학습을 활용하여 로봇이 상호작용 환경의 불확실성을 고려할 수 있도록 한다. 가치 분포를 추정하고 이를 기반으로 위험 지표를 계산하여 정책 업데이트에 반영한다. 이를 통해 위험 회피적 또는 위험 추구적 행동을 학습할 수 있다.
시뮬레이션 실험에서 제안 기법이 기존 방식 대비 우수한 성능을 보였으며, 실제 ANYmal 로봇에 적용하여 위험 민감성 행동을 확인하였다. 이를 통해 제안 기법이 위험한 환경에서 로봇의 안전한 운용을 가능하게 함을 보였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Lukas Schnei... a las arxiv.org 05-06-2024
https://arxiv.org/pdf/2309.14246.pdfConsultas más profundas