Core Concepts
CoPa는 비전-언어 모델에 내재된 상식 지식을 활용하여 로봇 조작을 위한 일련의 6자유도 말단 장치 자세를 생성합니다.
Abstract
CoPa는 로봇 조작 과정을 두 단계로 분해합니다: 작업 지향적 그래스핑과 작업 인식 동작 계획.
작업 지향적 그래스핑 단계에서는 새로운 점진적 접지 메커니즘을 통해 비전-언어 모델(VLM)을 활용하여 물체의 그래스핑 부위를 선택합니다.
작업 인식 동작 계획 단계에서는 VLM을 다시 활용하여 작업 관련 물체 부품의 공간 기하학적 제약 조건을 식별하고, 이를 바탕으로 사후 그래스핑 자세를 도출합니다.
CoPa는 기존 로봇 계획 알고리즘과 seamlessly 통합되어 복잡하고 장기적인 작업을 수행할 수 있습니다. 실제 세계 실험을 통해 CoPa가 최소한의 프롬프트 엔지니어링과 추가 학습 없이도 개방형 지침과 물체를 처리할 수 있는 세부적인 물리적 이해력을 보유하고 있음을 입증합니다.
Stats
"대부분의 조작 작업은 물체의 부품 수준, 세부적인 물리적 이해가 필요합니다."
"CoPa는 VLM에 내재된 상식 지식을 활용하여 작업 관련 부품의 공간 기하학적 제약 조건을 생성합니다."
"CoPa는 기존 로봇 계획 알고리즘과 통합되어 복잡하고 장기적인 작업을 수행할 수 있습니다."
Quotes
"CoPa는 최소한의 프롬프트 엔지니어링과 추가 학습 없이도 개방형 지침과 물체를 처리할 수 있는 세부적인 물리적 이해력을 보유하고 있습니다."
"CoPa는 VLM에 내재된 상식 지식을 활용하여 작업 관련 부품의 공간 기하학적 제약 조건을 생성합니다."