แนวคิดหลัก
로봇 유틸리티 모델은 새로운 환경에서 추가 학습 없이 직접 일반화할 수 있는 정책을 제공한다.
บทคัดย่อ
이 논문은 로봇 유틸리티 모델(RUM)이라는 새로운 프레임워크를 소개한다. RUM은 대규모 데이터 수집, 다중 모달 행동 학습 알고리즘, 그리고 mLLM 기반 자기 평가 및 재시도 메커니즘을 통해 새로운 환경에서 제로샷으로 배포할 수 있는 일반적인 정책을 만들어낸다.
주요 내용은 다음과 같다:
- 데이터 수집을 위한 새로운 도구 Stick-v2를 개발하여 다양한 환경에서 데이터를 효율적으로 수집할 수 있다.
- VQ-BeT, Diffusion Policy 등의 다중 모달 행동 학습 알고리즘을 사용하여 다양한 데모 데이터를 효과적으로 학습할 수 있다.
- mLLM 기반 자기 평가 및 재시도 메커니즘을 통해 새로운 환경에서 90%의 평균 성공률을 달성할 수 있다.
- 데이터 다양성이 모델 성능에 더 중요한 요인이며, 전문가 데이터 사용이 일반적으로 더 효과적이다.
- 학습된 모델은 다른 로봇 플랫폼에서도 최소한의 성능 저하로 배포할 수 있다.
สถิติ
평균 1.31번의 시도로 작업을 성공적으로 완수한다.
자기 평가 시스템의 평균 오탐지율은 4.8%이다.
자기 평가 및 재시도 기능을 통해 평균 15.6%의 성능 향상을 달성했다.
คำพูด
"로봇 유틸리티 모델은 새로운 환경에서 추가 학습 없이 직접 일반화할 수 있는 정책을 제공한다."
"데이터 다양성이 모델 성능에 더 중요한 요인이며, 전문가 데이터 사용이 일반적으로 더 효과적이다."
"학습된 모델은 다른 로봇 플랫폼에서도 최소한의 성능 저하로 배포할 수 있다."