Core Concepts
MotionChain은 다양한 모달리티의 프롬프트를 통해 지속적이고 장기적인 인간 동작을 생성할 수 있는 대화형 인간 동작 컨트롤러이다.
Abstract
이 연구에서는 MotionChain이라는 대화형 인간 동작 컨트롤러를 제안한다. MotionChain은 텍스트, 이미지, 동작 등 다양한 모달리티의 프롬프트를 통해 지속적이고 장기적인 인간 동작을 생성할 수 있다.
MotionChain의 주요 구성요소는 다음과 같다:
다중 모달리티 토크나이저: 텍스트, 이미지, 동작 데이터를 이산적인 토큰으로 변환하는 모듈
비전-동작-언어 인식 언어 모델: 다양한 모달리티의 정보를 통합하여 동작 생성 및 질의응답을 수행하는 모델
MotionChain은 대화형 동작 생성 작업에서 최첨단 성능을 보여주며, 가상 인간과의 더욱 직관적인 제어 및 상호작용을 가능하게 한다.
Stats
이 연구에서 제안한 MotionChain은 기존 언어 모델 대비 우수한 동작 추론 성능을 보여준다.
MotionChain은 동작 토큰 연결 방식을 통해 시간적으로 연속적인 동작 생성이 가능하다.
MotionChain의 비전 토크나이저 아키텍처 중 간단한 선형 프로젝션이 가장 효과적인 것으로 나타났다.
Quotes
"MotionChain은 다양한 모달리티의 프롬프트를 통해 지속적이고 장기적인 인간 동작을 생성할 수 있는 대화형 인간 동작 컨트롤러이다."
"MotionChain은 대화형 동작 생성 작업에서 최첨단 성능을 보여주며, 가상 인간과의 더욱 직관적인 제어 및 상호작용을 가능하게 한다."