מושגי ליבה
본 연구에서는 세부적인 텍스트 설명을 활용하여 동작을 생성하는 새로운 모델 FineMotionDiffuse를 제안한다. 이 모델은 세부적인 단계별 설명과 개괄적인 설명을 모두 활용하여 복잡한 동작을 효과적으로 생성할 수 있다.
תקציר
본 연구에서는 세부적인 텍스트 설명을 활용하여 동작을 생성하는 새로운 모델 FineMotionDiffuse를 제안한다.
먼저, 연구진은 GPT-3.5-turbo를 활용하여 기존의 HumanML3D 데이터셋을 확장하여 FineHumanML3D 데이터셋을 구축하였다. 이 데이터셋에는 동작에 대한 세부적인 단계별 설명이 포함되어 있다.
FineMotionDiffuse 모델은 다음과 같은 구조로 구성된다:
- 세부적인 텍스트 인코더: 각 단계의 텍스트 설명을 인코딩하여 단계별 특징을 추출한다.
- 단계 인지 자기 주의 메커니즘: 단계별 특징에 위치 정보를 추가하여 단계 간 관계를 모델링한다.
- 개괄적 텍스트 인코더: 전체 동작에 대한 개괄적인 설명을 인코딩한다.
- 세부-개괄 교차 주의 메커니즘: 세부적인 단계 정보와 개괄적인 정보를 융합한다.
- 확산 모듈: 텍스트 특징과 동작 특징을 융합하여 최종 동작을 생성한다.
실험 결과, FineMotionDiffuse는 기존 모델 대비 정량적 지표에서 우수한 성능을 보였으며, 특히 복잡한 동작에 대한 생성 능력이 뛰어난 것으로 나타났다. 이는 세부적인 텍스트 설명과 개괄적인 설명을 함께 활용하는 FineMotionDiffuse의 장점으로 볼 수 있다.
סטטיסטיקה
사람은 어깨 너비로 발을 벌리고 팔은 옆구리에 붙인 상태에서 시작한다.
사람은 무릎을 구부리고 엉덩이를 내리면서 스쿼트 동작을 수행한다.
사람은 발바닥으로 힘을 주어 다리와 엉덩이를 펴면서 점프를 한다.
사람은 공중에서 다리를 이완한 상태로 있다가 발볼로 착지하고 천천히 발뒤꿈치를 내린다.
ציטוטים
"사람은 어깨 너비로 발을 벌리고 팔은 옆구리에 붙인 상태에서 시작한다."
"사람은 무릎을 구부리고 엉덩이를 내리면서 스쿼트 동작을 수행한다."
"사람은 발바닥으로 힘을 주어 다리와 엉덩이를 펴면서 점프를 한다."
"사람은 공중에서 다리를 이완한 상태로 있다가 발볼로 착지하고 천천히 발뒤꿈치를 내린다."