Core Concepts
OAKINK2는 물체 기능(affordance)을 기반으로 복잡한 작업을 단순한 상호작용 단위(Primitive)로 분해하고, 이들 간의 의존관계를 모델링하여 복잡한 작업 완수를 지원한다.
Abstract
OAKINK2는 복잡한 일상 작업을 수행하는 과정에서의 양손 물체 조작 데이터셋이다. 이 데이터셋은 물체의 기능(affordance)을 기반으로 작업을 분해하고, 이를 달성하기 위한 최소한의 상호작용 단위(Primitive)를 정의한다. 또한 이러한 Primitive들 간의 의존관계를 모델링하여 복잡한 작업을 완수할 수 있는 방법을 제공한다.
데이터셋에는 다양한 물체와 시나리오에서 수집된 627개의 양손 조작 시퀀스가 포함되어 있으며, 이 중 264개는 복잡한 작업에 대한 것이다. 각 시퀀스에는 4.01M개의 프레임과 인체, 손, 물체의 3D 포즈 정보가 포함되어 있다.
OAKINK2는 복잡한 작업 완수를 위한 응용 프로그램 개발을 지원한다. 이 논문에서는 복잡한 작업을 Primitive로 분해하고, 각 Primitive에 대한 동작을 생성하는 방법을 제안한다. 먼저 대형 언어 모델(LLM)을 사용하여 복잡한 작업을 Primitive 시퀀스로 분해하고, 이후 Primitive 수준의 동작 생성 모델(TaMF)을 통해 실제 동작을 생성한다.
Stats
작업을 완수하기 위해 사용된 도구를 자르고 설탕을 담는 등의 구체적인 동작이 필요하다.
물체를 열고 닫는 등의 기본적인 동작도 수행되었다.
작업을 완수하기 위해서는 여러 단계의 동작이 순서대로 이루어져야 한다.
Quotes
"OAKINK2는 물체 기능(affordance)을 기반으로 복잡한 작업을 단순한 상호작용 단위(Primitive)로 분해하고, 이들 간의 의존관계를 모델링하여 복잡한 작업 완수를 지원한다."
"OAKINK2 데이터셋에는 다양한 물체와 시나리오에서 수집된 627개의 양손 조작 시퀀스가 포함되어 있으며, 이 중 264개는 복잡한 작업에 대한 것이다."