이 연구는 GPT-4V(ision)와 GPT-4를 활용하여 인간의 작업 시연 비디오를 분석하고 이를 바탕으로 로봇이 실행할 수 있는 작업 계획을 생성하는 파이프라인을 제안한다.
먼저 GPT-4V(ision)를 사용하여 비디오에서 인간의 행동을 인식하고 텍스트로 설명한다. 이 텍스트 설명과 첫 번째 프레임의 장면 정보를 바탕으로 GPT-4를 사용하여 작업 계획을 생성한다.
이후 비디오를 다시 분석하여 손과 물체의 상호작용을 파악하고, 물체 탐지 및 손-물체 거리 계산을 통해 물체 잡기와 놓기의 시간과 위치를 추출한다. 이를 통해 로봇 실행에 필요한 다양한 어포던스 정보(접근 방향, 잡는 방식, 경로 등)를 획득한다.
정성적 실험에서는 다양한 시나리오에서 단일 시연으로부터 실제 로봇 작업을 성공적으로 수행할 수 있음을 확인했다. 정량적 평가에서는 GPT-4V(ision)의 한계로 인한 오류가 발견되어, 사용자의 감독이 중요함을 시사했다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania