이 논문은 사지 로봇의 자율성과 다양성을 높이기 위해 비전 정보와 언어 지시를 통합하는 새로운 QUAR-VLA 패러다임을 제안한다.
먼저 기존의 QUAR-VA(비전-행동) 및 QUAR-LA(언어-행동) 접근법의 한계를 분석한다. QUAR-VA는 단일 (粗粒度) 목표 이미지 지시에 의존하여 다양한 실세계 조합 과제를 수행하기 어렵고, QUAR-LA는 시각 정보의 부재로 인해 자율 내비게이션 능력이 제한적이다.
이에 따라 QUAR-VLA는 다양한 모달리티의 비전 정보와 지시를 입력으로 받아 실행 가능한 행동을 생성한다. 이를 위해 대규모 다중 과제 데이터셋 QUARD와 QUART 모델을 제안한다. QUART는 사전 학습된 대규모 비전-언어 모델을 활용하여 이미지와 텍스트 지시를 통합하고 실행 가능한 로봇 행동을 출력한다.
실험 결과, QUART는 다양한 과제에서 우수한 성능을 보이며, 새로운 물체와 언어 지시에 대한 일반화 능력도 우수한 것으로 나타났다. 또한 시뮬레이션 데이터와 실제 데이터의 결합을 통해 실세계 적용 성능도 향상되었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문