Core Concepts
본 연구는 데모 기반 학습과 다중 목표 강화 학습을 결합하여 사용자 선호도에 따라 유연하게 적응할 수 있는 로봇 내비게이션 프레임워크를 제안한다.
Abstract
본 연구는 로봇이 인간 환경에서 내비게이션을 수행할 때 사용자 선호도에 맞추어 행동을 조정할 수 있는 프레임워크를 제안한다. 기존의 강화 학습 기반 내비게이션 접근법은 고정된 보상 함수를 사용하여 사용자 선호도의 변화에 적응하기 어려웠다.
이를 해결하기 위해 본 연구는 다중 목표 강화 학습(MORL)과 데모 기반 학습을 결합하였다. 이를 통해 학습된 정책은 사용자 선호도의 변화에 따라 실시간으로 행동을 조정할 수 있다.
구체적으로 본 연구는 다음과 같은 내용을 포함한다:
사용자 선호도에 따라 유연하게 적응할 수 있는 MORL 기반 내비게이션 프레임워크 제안
데모 데이터를 조절 가능한 목표로 통합
시뮬레이션 및 실제 로봇에서의 광범위한 정성적/정량적 분석 수행
실험 결과, 제안된 프레임워크는 사용자 선호도에 따라 내비게이션 행동을 유연하게 조정할 수 있음을 보여준다. 또한 시뮬레이션에서 학습된 정책이 실제 로봇에서도 성공적으로 동작함을 확인하였다.
Stats
로봇이 목표 지점까지 도달하는 데 걸리는 시간은 효율성 선호도가 최대일 때 가장 짧다.
로봇이 데모 궤적과 유사한 행동을 보일수록 데모 궤적과의 프레셰 거리가 감소한다.
로봇이 장애물과 가장 가까운 거리는 거리 선호도가 최대일 때 가장 작다.
로봇이 사람과 가장 가까운 거리는 거리 선호도가 최대일 때 가장 크다.