본 연구는 로봇이 인간 환경에서 내비게이션을 수행할 때 사용자 선호도에 맞추어 행동을 조정할 수 있는 프레임워크를 제안한다. 기존의 강화 학습 기반 내비게이션 접근법은 고정된 보상 함수를 사용하여 사용자 선호도의 변화에 적응하기 어려웠다.
이를 해결하기 위해 본 연구는 다중 목표 강화 학습(MORL)과 데모 기반 학습을 결합하였다. 이를 통해 학습된 정책은 사용자 선호도의 변화에 따라 실시간으로 행동을 조정할 수 있다.
구체적으로 본 연구는 다음과 같은 내용을 포함한다:
실험 결과, 제안된 프레임워크는 사용자 선호도에 따라 내비게이션 행동을 유연하게 조정할 수 있음을 보여준다. 또한 시뮬레이션에서 학습된 정책이 실제 로봇에서도 성공적으로 동작함을 확인하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jorge de Heu... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04857.pdfYêu cầu sâu hơn