Core Concepts
음악 리듬에 맞춰 생동감 있고 고품질의 댄스를 생성하는 MIDGET 모델을 제안한다.
Abstract
이 논문에서는 음악 기반 3D 댄스 생성 모델인 MIDGET을 소개한다. MIDGET은 Dance Motion Vector Quantised Variational AutoEncoder (VQ-VAE) 모델과 Motion Generative Pre-Training (GPT) 모델을 기반으로 한다. 주요 구성 요소는 다음과 같다:
다양한 인체 자세 코드를 저장하는 사전 학습된 메모리 코드북 기반의 Motion VQ-VAE 모델
음악 및 동작 인코더를 활용하여 Motion GPT 모델로 자세 코드를 생성
간단한 음악 특징 추출 프레임워크
AIST++ 데이터셋을 사용한 실험에서 MIDGET은 동작 품질과 음악과의 정렬 측면에서 최신 기술 수준을 달성했다. 특히 기존 방법들의 문제점인 동작 프리징 현상을 해결하고, 음악-동작 비트 정렬을 직접 학습할 수 있는 기법을 제안했다.
Stats
동작 VQ-VAE 모델의 재구성 손실 함수는 3D 관절 좌표, 속도, 가속도를 고려한다.
음악-동작 비트 정렬 점수(BA Score)는 MIDGET이 기존 모델 대비 10.5% 향상되었다.
동작의 다양성 지표(DIVk, DIVg)는 각각 10.3%, 1.6% 개선되었다.
Quotes
"우리는 그래디언트 복사 전략을 도입하여 동작 생성기를 음악 정렬 점수로 직접 학습할 수 있게 했다."
"제안한 음악 특징 추출기는 추가 파라미터가 적으면서도 음악 정보 인식 및 분석 성능을 향상시켰다."