마스크 동작 모델은 텍스트 설명에 정확하게 부합하는 고품질 동작을 실시간으로 생성할 수 있으며, 동작 편집 기능도 제공한다.
BAMM은 텍스트 입력에 정확하게 맞춰진 자연스러운 인간 동작을 생성하며, 동작 길이 예측과 편집 기능을 제공한다.
텍스트 설명에 나타난 다양한 신체 부위와 물체 간의 상호작용을 고려하여 자연스럽고 물리적으로 타당한 3D 인간 동작을 생성한다.
본 연구는 ChatGPT를 활용하여 기존의 텍스트 기반 동작 생성기와 3D 장면을 연결하는 새로운 GPT-Connect 프레임워크를 제안한다. 이를 통해 별도의 훈련 없이도 3D 장면에 맞는 동작 시퀀스를 생성할 수 있다.
본 연구에서는 세부적인 텍스트 설명을 활용하여 동작을 생성하는 새로운 모델 FineMotionDiffuse를 제안한다. 이 모델은 세부적인 단계별 설명과 개괄적인 설명을 모두 활용하여 복잡한 동작을 효과적으로 생성할 수 있다.
본 연구는 사전 학습된 대규모 모델과 텍스트-동작 정렬을 위한 새로운 조건화 기법을 활용하여, 다양한 텍스트 프롬프트에 대해 사실적이고 풍부한 동작을 생성하는 기술을 제안한다.