본 연구는 인간 동작 생성을 위한 새로운 접근법을 제안한다. 기존 방법들은 전체 신체 자세를 하나의 벡터로 양자화하였지만, 이는 양자화 과정이 복잡하고 관절 간 공간적 관계를 잃어버리는 문제가 있었다.
이에 본 연구는 각 관절을 개별적으로 양자화하여 2D 토큰 맵을 생성한다. 이를 통해 양자화 과정이 단순해지고 관절 간 공간 정보를 유지할 수 있다. 또한 2D 구조를 활용하여 2D 컨볼루션, 2D 위치 인코딩, 2D 어텐션 등 다양한 2D 연산을 적용할 수 있다.
구체적으로, 본 연구는 2D 관절 VQVAE, 시공간 2D 마스킹 기법, 시공간 2D 어텐션 메커니즘을 제안한다. 시공간 2D 마스킹은 시간과 공간 차원에서 토큰을 랜덤하게 마스킹하여 모델이 마스킹된 토큰을 예측하도록 한다. 시공간 2D 어텐션은 시간과 공간 차원의 관계를 모두 고려하여 동작을 생성한다.
실험 결과, 본 방법은 기존 방법 대비 HumanML3D 데이터셋에서 26.6%, KIT-ML 데이터셋에서 29.9% FID 성능 향상을 보였다. 또한 정성적 평가에서도 텍스트와 잘 부합하는 동작을 생성하는 것을 확인할 수 있었다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Weihao Yuan,... lúc arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17686.pdfYêu cầu sâu hơn