이 논문은 Text2Motion 문제를 새로운 관점에서 접근한다. 기존 연구는 행동 텍스트(예: "걷기, 구부리기, 집어 올리기")에 초점을 맞추었지만, 실제 응용 분야에서는 장면 텍스트(예: "사람이 바닥에 있는 지갑을 발견한다")와 같은 임의의 텍스트도 다루어야 한다.
이를 위해 저자들은 HumanML3D 데이터셋을 확장하여 HumanML3D++ 데이터셋을 만들었다. HumanML3D++에는 행동 텍스트와 장면 텍스트가 모두 포함되어 있다.
저자들은 두 단계로 구성된 새로운 프레임워크를 제안한다. 첫째, 대형 언어 모델(LLM)을 사용하여 임의의 텍스트에서 행동 레이블을 추출한다. 둘째, 추출된 행동 레이블을 기반으로 Transformer 모델을 사용하여 동작을 생성한다.
실험 결과, 제안된 방법은 기존 방법에 비해 장면 텍스트에 대한 이해와 동작 생성 능력이 향상되었음을 보여준다. 이는 임의의 텍스트에서 동작을 생성하는 새로운 실용적인 방향을 제시한다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Runqi Wang,C... ที่ arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14745.pdfสอบถามเพิ่มเติม