核心概念
본 연구는 작업 및 환경에 독립적인 통일된 동작 궤적 잠재 공간을 학습하고, 이를 활용하여 관측과 작업 지시에 기반한 안정적인 다중 작업 정책 모델링을 제안한다.
要約
본 연구는 로봇 조작 작업을 위한 일반화된 시각-운동 정책 모델링의 과제를 다룬다. 기존 접근법은 다양한 데이터셋의 자원을 효과적으로 활용하지 못하거나 계산 자원이 많이 드는 비전-언어 모델에 의존하여 다중 작업 성능과 응용 가능성이 제한적이었다.
본 연구는 두 단계로 구성된다. 첫째, 작업 및 로봇 모델에 독립적인 동작 궤적 잠재 공간 모델링을 통해 다양한 동작 데이터를 통합한다. 이를 통해 대규모 데이터셋의 장점을 활용할 수 있다. 둘째, 관측과 작업 지시에 기반한 잠재 확산 정책 모델을 통해 안정적이고 효과적인 다중 작업 정책 모델링을 수행한다.
실험 결과, 제안 방법이 기존 최신 모델 대비 각각 14%와 24% 향상된 다중 작업 성능을 보였다. 이는 제안 방법의 강력한 다중 작업 능력을 입증한다.
統計
본 연구에서 사용한 Robomimic 데이터셋의 평균 에피소드 길이는 PH 데이터의 경우 116, MH 데이터의 경우 209이다.
Meta-World 데이터셋의 평균 에피소드 길이는 Assembly 92, Button 86, Hammer 81, Bin 363, Drawer 87이다.
引用
"Modeling a generalized visuomotor policy has been a long-standing challenge for both computer vision and robotics communities."
"Existing approaches often fail to efficiently leverage cross-dataset resources or rely on heavy Vision-Language models, which require substantial computational resources, thereby limiting their multi-task performance and application potential."
"Our methodology consists of two decoupled phases: action modeling and policy modeling."