Core Concepts
강화학습 기반 정책을 통해 로봇이 물체를 비선형적으로 밀어내며 좁은 공간에서 효율적으로 경로를 계획할 수 있다.
Abstract
이 연구는 로봇이 물체를 밀어내며 좁은 공간에서 경로를 계획하는 문제를 다룹니다. 저자들은 강화학습 기반 정책을 개발하여 로봇이 물체를 비선형적으로 밀어내며 효율적으로 경로를 계획할 수 있도록 했습니다.
구체적으로:
로봇의 상태 표현에는 벡터와 격자 정보를 모두 활용했습니다. 벡터에는 로봇의 위치, 물체 모서리, 이전 행동 등이 포함되고, 격자에는 주변 환경이 의미적으로 표시됩니다.
강화학습 알고리즘으로 Advantage Actor-Critic을 사용했으며, NVIDIA Isaac Gym 시뮬레이터에서 병렬 에이전트를 훈련했습니다.
물체 위치를 무작위로 배치하고 난이도를 점진적으로 높이는 커리큘럼 학습 전략을 사용했습니다.
시뮬레이션 실험에서 에이전트가 익숙한 환경의 새로운 물체 배치와 완전히 새로운 환경에 적응할 수 있음을 보였습니다.
실제 쿼드러펫 로봇 실험에서도 센서 부정확성과 물체 동역학의 불확실성을 잘 다룰 수 있음을 확인했습니다.
이 연구는 로봇이 좁은 공간에서 물체를 효과적으로 밀어내며 경로를 계획할 수 있는 강화학습 기반 방법을 제안했습니다.
Stats
로봇이 목표에 도달하면 10의 큰 보상을 받습니다.
로봇이 벽이나 물체와 충돌하면 -1의 보상을 받습니다.
로봇의 속도와 회전 속도가 목표와 차이나면 -1에서 0 사이의 보상을 받습니다.
시간이 지날수록 -1의 보상을 받습니다.