본 연구는 로봇 조작 작업을 위한 일반화된 시각-운동 정책 모델링의 과제를 다룬다. 기존 접근법은 다양한 데이터셋의 자원을 효과적으로 활용하지 못하거나 계산 자원이 많이 드는 비전-언어 모델에 의존하여 다중 작업 성능과 응용 가능성이 제한적이었다.
본 연구는 두 단계로 구성된다. 첫째, 작업 및 로봇 모델에 독립적인 동작 궤적 잠재 공간 모델링을 통해 다양한 동작 데이터를 통합한다. 이를 통해 대규모 데이터셋의 장점을 활용할 수 있다. 둘째, 관측과 작업 지시에 기반한 잠재 확산 정책 모델을 통해 안정적이고 효과적인 다중 작업 정책 모델링을 수행한다.
실험 결과, 제안 방법이 기존 최신 모델 대비 각각 14%와 24% 향상된 다중 작업 성능을 보였다. 이는 제안 방법의 강력한 다중 작업 능력을 입증한다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Wenhui Tan,B... om arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07312.pdfDiepere vragen