핵심 개념
ReKep는 시맨틱 키포인트를 기반으로 로봇 조작 작업을 위한 제약 조건을 나타내는 새로운 방법으로, 대규모 비전 모델과 비전-언어 모델을 활용하여 실시간으로 복잡한 조작 동작을 생성합니다.
초록
ReKep: 관계적 키포인트 제약 조건을 활용한 로봇 조작을 위한 시공간적 추론
본 연구는 복잡한 로봇 조작 작업을 효율적으로 수행하기 위해 시각 정보에 기반한 제약 조건을 자동으로 생성하고 활용하는 새로운 방법론을 제시하는 것을 목표로 합니다.
본 연구에서는 관계적 키포인트 제약 조건(ReKep)이라는 새로운 개념을 제안합니다. ReKep는 로봇 팔, 물체, 기타 에이전트 간의 공간적 관계를 나타내는 제약 조건으로, 장면의 의미론적으로 중요한 3D 키포인트 집합에 대한 Python 함수로 표현됩니다.
ReKep는 대규모 비전 모델(LVM)과 비전-언어 모델(VLM)을 사용하여 자동으로 생성됩니다. LVM은 장면에서 미세하고 의미론적으로 중요한 키포인트를 제안하고, VLM은 제안된 키포인트와 시각적 입력을 기반으로 Python 함수 형태의 제약 조건을 생성합니다.
생성된 ReKep 제약 조건은 계층적 최적화 프레임워크에서 사용되어 로봇 동작을 생성합니다. 이 프레임워크는 먼저 일련의 중간 목표(SE(3) 엔드 이펙터 포즈로 표현)를 해결한 다음 각 중간 목표를 달성하기 위한 조밀한 동작 시퀀스를 생성합니다.