이 연구는 비디오 기반 로봇 정책 학습 프레임워크인 Vid2Robot을 소개한다. 사람의 작업 수행 비디오와 로봇의 현재 시각 관측을 입력으로 받아, 로봇이 동일한 작업을 수행할 수 있는 행동을 직접 출력한다. 이를 위해 비디오 특징 융합 모델을 활용하여 사람의 의도를 파악하고 로봇의 물리적 제약 하에서 적절한 행동을 생성한다. 또한 비디오 간 대조 손실 함수를 활용하여 사람과 로봇 비디오 표현의 정렬을 향상시킨다. 실제 로봇 실험을 통해 Vid2Robot이 기존 비디오 기반 정책 대비 20% 향상된 성능을 보이며, 관찰된 동작을 다른 물체에 전이하는 등의 능력을 발휘함을 확인했다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Vidhi Jain,M... о arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12943.pdfГлибші Запити