核心概念
효율적인 모션 확산 모델(EMDM)은 입력 조건에 맞춰 실시간으로 고품질의 인간 모션을 생성할 수 있다.
摘要
이 논문은 기존 모션 확산 모델의 효율성 문제와 이를 가속화하는 데 있어서의 과제를 밝힌다. 이를 해결하기 위해 EMDM을 제안한다. EMDM은 조건부 노이즈 제거 확산 GAN을 활용하여 복잡한 노이즈 제거 분포를 모델링한다. 이를 통해 더 적은 샘플링 단계로도 고품질의 모션을 생성할 수 있다. 또한 기하학적 손실 함수를 추가하여 모션 품질을 향상시킨다. 실험 결과, EMDM은 기존 방법들에 비해 월등한 효율성을 보이면서도 경쟁력 있는 모션 품질과 다양성을 달성한다.
統計資料
본 모델의 평균 실행 시간은 동작-모션 과제에서 0.02초, 텍스트-모션 과제에서 0.05초이다. 이에 비해 MDM의 경우 각각 2.5초와 12.3초이다.
EMDM은 HumanML3D, KIT, HumanAct12 데이터셋에서 SOTA 방법들과 비교했을 때 가장 빠른 실행 시간을 보인다.
引述
"현재 최첨단 생성 확산 모델은 인상적인 결과를 산출했지만, 품질을 희생하지 않고 빠른 생성을 달성하기는 어렵다."
"EMDM은 복잡한 모션 분포를 효과적으로 포착하여, 매우 적은 샘플링 단계로도 고품질의 모션을 생성할 수 있다."