본 연구에서는 세부적인 텍스트 설명을 활용하여 동작을 생성하는 새로운 모델 FineMotionDiffuse를 제안한다.
먼저, 연구진은 GPT-3.5-turbo를 활용하여 기존의 HumanML3D 데이터셋을 확장하여 FineHumanML3D 데이터셋을 구축하였다. 이 데이터셋에는 동작에 대한 세부적인 단계별 설명이 포함되어 있다.
FineMotionDiffuse 모델은 다음과 같은 구조로 구성된다:
실험 결과, FineMotionDiffuse는 기존 모델 대비 정량적 지표에서 우수한 성능을 보였으며, 특히 복잡한 동작에 대한 생성 능력이 뛰어난 것으로 나타났다. 이는 세부적인 텍스트 설명과 개괄적인 설명을 함께 활용하는 FineMotionDiffuse의 장점으로 볼 수 있다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kunhang Li,Y... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13518.pdfYêu cầu sâu hơn