이 논문은 로봇 감각-운동 궤적을 활용하여 상황 기반 학습 능력을 가진 다음 토큰 예측 모델인 In-Context Robot Transformer (ICRT)를 제안한다. ICRT는 이미지 관측, 고유 감각 상태, 행동 등의 감각-운동 궤적을 자동 회귀적으로 예측한다. 이를 통해 새로운 작업을 수행할 때 사용자의 원격 조종 데모 궤적을 프롬프트로 활용할 수 있다.
실험 결과, ICRT는 프롬프트 궤적과 다른 환경 구성에서도 새로운 작업을 수행할 수 있다. 다중 작업 환경에서 ICRT는 기존 최신 로봇 기반 모델들보다 일반화 성능이 크게 향상되었다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询