Core Concepts
본 연구는 텍스트와 오디오 조건을 모두 활용하여 고품질의 인간 모션을 생성하는 통합 프레임워크 MCM을 제안한다.
Abstract
이 논문은 다중 조건 인간 모션 합성(HMS) 문제를 다룹니다. 기존 연구는 주로 단일 조건(텍스트 또는 오디오)에 초점을 맞추었지만, 이 연구에서는 텍스트와 오디오 조건을 모두 활용하는 통합 프레임워크 MCM을 제안합니다.
MCM은 주 분기와 제어 분기로 구성된 이중 분기 구조를 사용합니다. 주 분기는 사전 학습된 텍스트 기반 모션 합성 모델을 활용하여 모션의 품질과 의미적 연관성을 보장합니다. 제어 분기는 오디오 조건에 따라 모션을 조정하는 역할을 합니다. 이를 통해 각 모션 토큰이 단일 모달리티에 의해서만 생성되는 기존 방식의 한계를 극복할 수 있습니다.
또한 저자들은 공간 정보와 관절 간 상관관계를 효과적으로 모델링하기 위해 Multi-Wise 자기 주의 메커니즘을 적용한 Transformer 기반 DDPM 네트워크 MWNet을 제안했습니다.
실험 결과, MCM은 단일 조건 및 다중 조건 HMS 작업에서 경쟁력 있는 성능을 보였습니다. 특히 다중 조건 시나리오에서 MCM은 텍스트와 오디오 조건을 동시에 활용하여 보다 일관성 있고 의미적으로 연관된 모션을 생성할 수 있었습니다.
Stats
모션 데이터셋 HumanML3D와 AIST++를 사용하여 263차원의 모션 표현을 생성했습니다.
모션 데이터는 22개 관절 스켈레톤과 20 FPS로 처리되었습니다.
Quotes
"MCM은 텍스트와 오디오 조건을 동시에 활용하여 보다 일관성 있고 의미적으로 연관된 모션을 생성할 수 있었습니다."
"MWNet은 공간 정보와 관절 간 상관관계를 효과적으로 모델링하기 위해 Multi-Wise 자기 주의 메커니즘을 적용한 Transformer 기반 DDPM 네트워크입니다."