이 연구는 로봇이 위험을 이해하고 안전하게 행동할 수 있도록 하는 분포 강화 학습 기법을 제안한다. 기존의 강화 학습 기법은 위험을 명시적으로 모델링하지 않아 위험한 상황에서 적절히 대응하지 못하는 문제가 있었다.
이 연구에서는 분포 강화 학습을 활용하여 로봇이 상호작용 환경의 불확실성을 고려할 수 있도록 한다. 가치 분포를 추정하고 이를 기반으로 위험 지표를 계산하여 정책 업데이트에 반영한다. 이를 통해 위험 회피적 또는 위험 추구적 행동을 학습할 수 있다.
시뮬레이션 실험에서 제안 기법이 기존 방식 대비 우수한 성능을 보였으며, 실제 ANYmal 로봇에 적용하여 위험 민감성 행동을 확인하였다. 이를 통해 제안 기법이 위험한 환경에서 로봇의 안전한 운용을 가능하게 함을 보였다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania