Core Concepts
3D 기반 재단 모델을 통해 3D 인식, 추론 및 행동을 통합하고 생성 세계 모델을 구축하여 실제 세계와 더 긴밀하게 연결된 지능형 로봇 에이전트를 구현하고자 한다.
Abstract
이 논문은 3D 기반 재단 모델인 3D-VLA를 소개한다. 3D-VLA는 3D 인식, 추론 및 행동을 통합하고 생성 세계 모델을 구축하여 실제 세계와 더 긴밀하게 연결된 지능형 로봇 에이전트를 구현하고자 한다.
구체적으로:
3D 기반 대규모 언어 모델(3D-LLM)을 기반으로 하며, 환경과 상호작용할 수 있는 특수 토큰을 추가하였다.
이미지, 깊이 및 포인트 클라우드 생성을 위한 사전 학습된 확산 모델을 도입하고, 언어 모델과 효과적으로 정렬하기 위한 프로젝터를 개발하였다.
기존 데이터셋의 한계를 극복하기 위해 3D 관련 정보가 풍부한 3D 기반 로봇 지침 데이터셋을 구축하였다.
3D 추론 및 위치 파악, 멀티모달 목표 생성, 로봇 행동 계획 등 다양한 작업에서 우수한 성능을 보였다.
Stats
3D-VLA는 기존 2D 비전-언어 모델보다 3D 추론 및 위치 파악 작업에서 큰 성능 향상을 보였다.
3D-VLA는 이미지, 깊이 및 포인트 클라우드 생성 작업에서도 우수한 성능을 보였다.
3D-VLA는 RLBench와 CALVIN 데이터셋에서 로봇 행동 계획 작업에서도 우수한 성과를 달성했다.
Quotes
"인간은 3D 내부 표현을 기반으로 미래 이벤트를 시뮬레이션하는 세계 모델을 가지고 있다. 행동을 예측된 목표로 계획할 수 있다."
"기존 재단 모델은 언어 생성에 초점을 맞추고 있어 언어 이외의 모달리티를 상상하거나 미래 상태를 시뮬레이션하여 행동 생성을 지원하지 못한다."