본 연구는 로봇 조작 작업을 위한 일반화된 시각-운동 정책 모델링의 과제를 다룬다. 기존 접근법은 다양한 데이터셋의 자원을 효과적으로 활용하지 못하거나 계산 자원이 많이 드는 비전-언어 모델에 의존하여 다중 작업 성능과 응용 가능성이 제한적이었다.
본 연구는 두 단계로 구성된다. 첫째, 작업 및 로봇 모델에 독립적인 동작 궤적 잠재 공간 모델링을 통해 다양한 동작 데이터를 통합한다. 이를 통해 대규모 데이터셋의 장점을 활용할 수 있다. 둘째, 관측과 작업 지시에 기반한 잠재 확산 정책 모델을 통해 안정적이고 효과적인 다중 작업 정책 모델링을 수행한다.
실험 결과, 제안 방법이 기존 최신 모델 대비 각각 14%와 24% 향상된 다중 작업 성능을 보였다. 이는 제안 방법의 강력한 다중 작업 능력을 입증한다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Wenhui Tan,B... : arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07312.pdfDaha Derin Sorular