核心概念
BAMM은 텍스트 입력에 정확하게 맞춰진 자연스러운 인간 동작을 생성하며, 동작 길이 예측과 편집 기능을 제공한다.
摘要
이 논문은 텍스트 기반 인간 동작 생성을 위한 새로운 모델인 BAMM(Bidirectional Autoregressive Motion Model)을 소개한다. BAMM은 두 가지 핵심 구성 요소로 이루어져 있다:
- 동작 토크나이저: 3D 인간 동작을 이산 토큰으로 변환하여 잠재 공간에 압축한다.
- 마스크 자기 주의 변환기: 하이브리드 주의 마스킹 전략을 사용하여 무작위로 마스킹된 토큰을 자기회귀적으로 예측한다. 이를 통해 토큰 간 양방향 의존성을 포착하고 텍스트 입력에서 동작 출력으로의 확률적 매핑을 학습한다.
BAMM의 이러한 특징을 통해 고품질 동작 생성, 향상된 사용성, 내장된 동작 편집 기능을 동시에 달성할 수 있다. 실험 결과, BAMM은 HumanML3D와 KIT-ML 데이터셋에서 정성적, 정량적 측면 모두에서 현재 최신 기술을 능가하는 성능을 보여준다. 또한 BAMM은 동작 내삽, 외삽, 접두사 예측, 접미사 완성 등 다양한 동작 편집 작업을 제로 샷 방식으로 지원한다.
統計資料
동작 길이 예측 없이도 텍스트 입력에 정확하게 맞춰진 고품질 동작을 생성할 수 있다.
BAMM은 현재 최신 기술 대비 R-Precision Top-1 0.525, FID 0.055, MM-Dist 2.919로 우수한 성능을 보인다.
BAMM은 다양한 동작 편집 작업을 제로 샷 방식으로 지원한다.
引述
"BAMM은 텍스트 입력에 정확하게 맞춰진 자연스러운 인간 동작을 생성하며, 동작 길이 예측과 편집 기능을 제공한다."
"BAMM은 HumanML3D와 KIT-ML 데이터셋에서 정성적, 정량적 측면 모두에서 현재 최신 기술을 능가하는 성능을 보여준다."
"BAMM은 동작 내삽, 외삽, 접두사 예측, 접미사 완성 등 다양한 동작 편집 작업을 제로 샷 방식으로 지원한다."