본 연구는 로봇이 인간 환경에서 내비게이션을 수행할 때 사용자 선호도에 맞추어 행동을 조정할 수 있는 프레임워크를 제안한다. 기존의 강화 학습 기반 내비게이션 접근법은 고정된 보상 함수를 사용하여 사용자 선호도의 변화에 적응하기 어려웠다.
이를 해결하기 위해 본 연구는 다중 목표 강화 학습(MORL)과 데모 기반 학습을 결합하였다. 이를 통해 학습된 정책은 사용자 선호도의 변화에 따라 실시간으로 행동을 조정할 수 있다.
구체적으로 본 연구는 다음과 같은 내용을 포함한다:
실험 결과, 제안된 프레임워크는 사용자 선호도에 따라 내비게이션 행동을 유연하게 조정할 수 있음을 보여준다. 또한 시뮬레이션에서 학습된 정책이 실제 로봇에서도 성공적으로 동작함을 확인하였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jorge de Heu... alle arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04857.pdfDomande più approfondite