Core Concepts
인터넷 규모의 비전 기반 모델에서 추출한 언어 추론 세그멘테이션 마스크를 활용하여 샘플 효율적이고 일반화 가능한 로봇 조작 정책 모델을 개발한다.
Abstract
이 논문은 인터넷 규모의 비전 기반 모델에서 추출한 언어 추론 세그멘테이션 마스크를 활용하여 일반화 가능한 로봇 조작 정책 모델을 개발하는 방법을 제안한다.
첫째, 대규모 언어 모델(GPT-4)을 사용하여 사용자의 언어 지시를 해석하고 목표 객체를 추론한다. 둘째, 객체 탐지 및 추적 모델을 사용하여 목표 객체의 바운딩 박스를 생성하고, 세그멘테이션 모델(SAM)을 사용하여 객체 마스크를 생성한다. 셋째, 두 개의 스트림으로 구성된 정책 모델(TPM)을 제안하여 원시 이미지, 언어 추론 객체 마스크, 로봇 고유 정보를 입력으로 받아 연속적인 행동을 예측한다.
실험 결과, 제안된 방법은 새로운 객체와 배경에서 우수한 일반화 성능을 보였다. 또한 더 많은 방해물이 있는 상황에서도 강건한 성능을 보였다. 추가로, 제안된 방법은 집기 열기, 물건 집어 넣기 등 다양한 조작 기술로 확장될 수 있음을 보였다.
Stats
우리의 접근 방식은 새로운 객체와 배경에서 약 80%의 성공률을 달성했다.
더 많은 방해물이 있는 상황에서도 약 70%의 성공률을 보였다.
Quotes
"언어, 특히 자연어는 인간-로봇 상호작용을 위한 자연스럽고 확장 가능한 방식을 제공한다."
"우리의 접근 방식은 인터넷 규모 모델의 일반화 능력과 모방 학습을 통한 다중 모달 행동 분포 캡처의 잠재력을 완전히 통합하고자 한다."