이 논문은 텍스트 설명에 나타난 다양한 신체 부위와 물체 간의 상호작용을 고려하여 자연스럽고 물리적으로 타당한 3D 인간 동작을 생성하는 문제를 다룹니다.
먼저, 기존 데이터셋의 한계를 극복하기 위해 RICH-CAT이라는 새로운 데이터셋을 구축했습니다. RICH-CAT은 고품질 동작 데이터, 정확한 인간-물체 접촉 레이블, 상호작용 정보를 포함한 텍스트 설명으로 구성되어 있습니다.
이를 바탕으로 CATMO라는 새로운 접근법을 제안했습니다. CATMO는 독립적인 VQ-VAE 모델을 사용하여 동작과 접촉 정보를 각각 잠재 공간으로 인코딩합니다. 그리고 텍스트 정보를 활용하여 동작과 접촉을 상호 조건부로 생성하는 intertwined GPT 모듈을 도입했습니다. 또한 상호작용 정보를 효과적으로 이해할 수 있는 텍스트 인코더를 사용하여 텍스트-동작 정렬을 향상시켰습니다.
실험 결과, CATMO는 기존 방법들에 비해 동작 생성 품질과 텍스트-동작 정렬 측면에서 우수한 성능을 보였습니다. 또한 정적 장면에서의 인간-물체 상호작용 생성에도 적용할 수 있음을 보였습니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询