본 연구는 텍스트 기반 동작 생성을 위한 새로운 접근법인 OMG를 제안한다. 이 방법은 사전 학습된 대규모 모델과 텍스트-동작 정렬을 위한 새로운 조건화 기법을 활용한다.
사전 학습 단계에서는 대규모 비지도 동작 데이터를 활용하여 무조건부 확산 모델을 학습한다. 이를 통해 다양하고 사실적인 동작 생성 능력을 확보한다.
이후 미세 조정 단계에서는 텍스트 프롬프트를 조건으로 하는 Motion ControlNet을 도입한다. 이 모듈은 사전 학습된 모델의 매개변수를 고정한 채 텍스트 임베딩과 동작 특징을 효과적으로 정렬하는 새로운 Mixture-of-Controllers 기법을 활용한다.
이를 통해 다양한 텍스트 프롬프트에 대해 사실적이고 풍부한 동작을 생성할 수 있다. 실험 결과 제안 방법이 기존 기술 대비 우수한 성능을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies