Core Concepts
웹 동영상에서 학습한 포인트 트랙 예측 모델과 로봇 데모 데이터를 활용하여 다양한 작업에 대한 제로샷 로봇 조작 기술을 개발하였다.
Abstract
이 연구는 로봇이 새로운 시나리오에서 신뢰성 있게 배치될 수 있는 제로샷 실행 기능을 개발하는 것을 목표로 한다. 이를 위해 저자들은 웹 동영상에서 학습한 포인트 트랙 예측 모델과 소량의 로봇 데모 데이터를 활용하는 접근법을 제안한다.
구체적으로, 저자들은 초기 이미지, 목표 이미지, 초기 이미지의 랜덤 포인트를 입력으로 받아 미래 프레임에서의 포인트 위치를 예측하는 모델을 개발하였다. 이 예측 모델은 웹 동영상 데이터만으로 학습되며, 로봇 데이터를 사용하지 않는다. 다음으로, 초기 장면의 깊이 정보와 예측된 포인트 트랙을 활용하여 물체의 3D 리지드 변환을 추정하고, 이를 통해 로봇 엔드이펙터의 오픈루프 동작 계획을 생성한다. 마지막으로, 소량의 로봇 데모 데이터를 활용하여 예측된 오픈루프 동작 계획을 보정하는 잔차 정책을 학습한다.
이러한 접근법을 통해 저자들은 다양한 일상 작업에 대한 제로샷 로봇 조작 기술을 개발하였다. 실험 결과, 제안 방법은 기존 접근법에 비해 새로운 물체와 시나리오에 대한 일반화 성능이 크게 향상되었음을 보여준다.
Stats
초기 이미지와 목표 이미지를 입력으로 받아 미래 프레임에서의 포인트 위치를 예측할 수 있다.
예측된 포인트 트랙과 초기 장면의 깊이 정보를 활용하여 물체의 3D 리지드 변환을 추정할 수 있다.
소량의 로봇 데모 데이터를 활용하여 예측된 오픈루프 동작 계획을 보정하는 잔차 정책을 학습할 수 있다.
Quotes
"웹 동영상에서 학습한 포인트 트랙 예측 모델과 소량의 로봇 데모 데이터를 활용하여 다양한 작업에 대한 제로샷 로봇 조작 기술을 개발하였다."
"예측된 포인트 트랙과 초기 장면의 깊이 정보를 활용하여 물체의 3D 리지드 변환을 추정하고, 이를 통해 로봇 엔드이펙터의 오픈루프 동작 계획을 생성한다."
"소량의 로봇 데모 데이터를 활용하여 예측된 오픈루프 동작 계획을 보정하는 잔차 정책을 학습한다."