이 논문은 텍스트 기반 인간 동작 생성에 관한 연구를 다룹니다. 최근 텍스트 기반 동작 생성 기술이 발전하면서 다양하고 고품질의 인간 동작을 생성할 수 있게 되었지만, 기존 데이터셋의 분포를 벗어나는 동작을 생성하는 것은 여전히 어려운 과제입니다.
이를 해결하기 위해 저자들은 Fine-Grained Human Motion Diffusion Model (FG-MDM)이라는 새로운 프레임워크를 제안합니다. 이 모델은 ChatGPT를 활용하여 기존의 간단하고 모호한 텍스트 설명을 신체 부위별로 세부적인 설명으로 변환합니다. 이렇게 생성된 세부적인 설명을 활용하여 변환기 기반 확산 모델을 학습시킴으로써, 기존 데이터셋의 분포를 벗어나는 동작을 생성할 수 있습니다.
실험 결과, FG-MDM은 기존 방법들에 비해 제로샷 설정에서 우수한 성능을 보였습니다. 또한 사용자 연구를 통해 FG-MDM이 기존 데이터셋의 분포를 벗어나는 동작을 더 잘 생성할 수 있음을 확인했습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문