이 연구는 비디오 기반 로봇 정책 학습 프레임워크인 Vid2Robot을 소개한다. 사람의 작업 수행 비디오와 로봇의 현재 시각 관측을 입력으로 받아, 로봇이 동일한 작업을 수행할 수 있는 행동을 직접 출력한다. 이를 위해 비디오 특징 융합 모델을 활용하여 사람의 의도를 파악하고 로봇의 물리적 제약 하에서 적절한 행동을 생성한다. 또한 비디오 간 대조 손실 함수를 활용하여 사람과 로봇 비디오 표현의 정렬을 향상시킨다. 실제 로봇 실험을 통해 Vid2Robot이 기존 비디오 기반 정책 대비 20% 향상된 성능을 보이며, 관찰된 동작을 다른 물체에 전이하는 등의 능력을 발휘함을 확인했다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Vidhi Jain,M... lúc arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12943.pdfYêu cầu sâu hơn