이 논문은 텍스트 기반 인간 동작 생성 문제를 다룹니다. 이는 자연어 설명을 바탕으로 인간 동작 시퀀스를 합성하는 다중 모달 작업입니다. 기존 확산 모델 기반 접근법은 생성의 다양성과 다중 모달리티 측면에서 뛰어난 성능을 보였지만, 자동 회귀 방식에 비해 동작 특징 분포 학습이 부족하여 FID 점수가 만족스럽지 않았습니다.
이를 해결하기 위해 본 논문은 동작 마스크 확산 모델(MMDM)을 제안합니다. MMDM은 동작 임베딩 공간에 마스킹 메커니즘을 도입하여 시공간 관계 학습을 명시적으로 강화합니다. 구체적으로 시간 프레임 마스크와 신체 부위 마스크 두 가지 마스킹 전략을 설계하였습니다. 학습 과정에서 MMDM은 동작 임베딩의 일부를 마스킹하고, 디코더가 불완전한 표현에서 전체 동작 시퀀스를 복원하도록 학습합니다. 이를 통해 텍스트와의 일관성을 높이면서도 전반적인 동작 품질과 다양성을 균형있게 달성할 수 있었습니다.
실험 결과, MMDM은 HumanML3D와 KIT-ML 데이터셋에서 기존 방법 대비 유의미한 성능 향상을 보였습니다. 마스킹 비율 및 모델 아키텍처에 대한 분석을 통해 제안한 마스킹 전략이 효과적임을 검증하였습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문