Core Concepts
장면 활용도를 중간 표현으로 활용하여 3D 장면 접지와 조건부 동작 생성을 효과적으로 연결할 수 있다.
Abstract
이 논문은 언어 기반 인간 동작 생성에 대한 새로운 접근법을 제안한다. 기존 연구의 주요 과제는 (i) 자연어, 3D 장면, 인간 동작을 통합적으로 모델링할 수 있는 강력한 생성 모델의 부재와 (ii) 생성 모델의 방대한 데이터 요구량과 언어-장면-동작 데이터의 부족이다.
이를 해결하기 위해 저자들은 장면 활용도를 중간 표현으로 활용하는 새로운 두 단계 프레임워크를 제안한다. 첫 번째 단계에서는 Affordance Diffusion Model (ADM)을 사용하여 언어 설명에 따른 명시적 활용도 맵을 예측한다. 두 번째 단계에서는 Affordance-to-Motion Diffusion Model (AMDM)을 통해 예측된 활용도 맵을 활용하여 플ausible한 인간 동작을 생성한다.
저자들은 HumanML3D와 HUMANISE 벤치마크에서 모든 기준선을 능가하는 성능을 보였다. 또한 이전에 보지 못한 설명과 장면을 포함하는 새로운 평가 세트에서도 탁월한 일반화 능력을 입증했다.
Stats
장면 내 인간 관절과 표면점 사이의 거리 필드를 활용도 맵으로 변환한다.
활용도 맵은 언어 설명과 장면 정보를 효과적으로 연결하고 동작 생성의 일반화를 돕는다.
Quotes
"장면 활용도를 중간 표현으로 활용하여 3D 장면 접지와 조건부 동작 생성을 효과적으로 연결할 수 있다."
"저자들은 HumanML3D와 HUMANISE 벤치마크에서 모든 기준선을 능가하는 성능을 보였다."
"저자들은 이전에 보지 못한 설명과 장면을 포함하는 새로운 평가 세트에서도 탁월한 일반화 능력을 입증했다."