이 논문은 텍스트 기반 인간 동작 생성을 위한 새로운 패러다임인 마스크 동작 모델(MMM)을 소개한다. MMM은 두 가지 핵심 구성 요소로 이루어져 있다:
이를 통해 MMM은 텍스트 설명에 정확하게 부합하는 고품질 동작을 실시간으로 생성할 수 있다. 또한 마스크 토큰을 활용하여 동작 편집(동작 보간, 상체 편집, 긴 동작 생성)이 가능하다.
실험 결과, MMM은 기존 최신 방법들에 비해 동작 생성 품질과 속도 면에서 모두 우수한 성능을 보였다. 특히 기존 확산 모델 및 자기회귀 모델 대비 최대 2배 빠른 생성 속도를 달성했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문