Core Concepts
GPT-4V 비전-언어 기반 모델을 활용하여 실세계 시나리오에서 개방형 추론 및 적응형 계획을 수행하는 폐루프 프레임워크를 제시합니다.
Abstract
이 논문은 GPT-4V 비전-언어 기반 모델을 활용하여 실세계 시나리오에서 개방형 추론 및 적응형 계획을 수행하는 폐루프 프레임워크인 COME-robot을 소개합니다. COME-robot은 로봇 탐색, 네비게이션, 조작을 위한 일련의 기본 동작 프리미티브를 구현하고, GPT-4V를 활용하여 다중 모달 추론, 코드 기반 행동 정책 생성, 작업 진행 검증, 재계획 피드백 등을 수행합니다. 이를 통해 COME-robot은 (i) 환경을 능동적으로 인지하고, (ii) 상황 기반 추론을 수행하며, (iii) 실패로부터 복구할 수 있습니다. 8개의 실제 테이블탑 및 조작 작업에 대한 실험을 통해 COME-robot이 기존 최신 방법 대비 약 25% 향상된 작업 성공률을 달성함을 보여줍니다. 또한 COME-robot의 설계가 실패 복구, 개방형 지시 따르기, 장기 작업 계획 등의 능력을 어떻게 촉진하는지 자세히 분석합니다.
Stats
제안된 COME-robot 프레임워크는 기존 최신 방법 대비 약 25% 향상된 작업 성공률을 달성했습니다.
COME-robot은 실패 복구 능력을 통해 단계별 성공률을 높였으며, 테이블탑 작업에서 123/140, 모바일 조작 작업에서 101/122의 단계별 성공률을 보였습니다.
Quotes
"COME-robot은 GPT-4V 비전-언어 기반 모델을 활용하여 실세계 시나리오에서 개방형 추론 및 적응형 계획을 수행하는 폐루프 프레임워크입니다."
"COME-robot은 (i) 환경을 능동적으로 인지하고, (ii) 상황 기반 추론을 수행하며, (iii) 실패로부터 복구할 수 있습니다."