Core Concepts
언어 모델의 지식을 활용하여 동작을 의미 있는 자세 코드로 분해하고, 이를 통해 동작을 정밀하게 생성 및 편집할 수 있다.
Abstract
이 논문은 언어 기반 동작 생성 모델 CoMo를 제안한다. CoMo는 동작을 의미 있는 자세 코드로 분해하여 표현하고, 이를 활용해 언어 모델의 지식을 활용하여 동작을 생성 및 편집할 수 있다.
동작 인코더-디코더 모듈은 동작을 자세 코드 시퀀스로 분해하고 다시 동작으로 복원한다. 동작 생성기는 텍스트 설명과 언어 모델이 생성한 세부 키워드를 활용하여 자세 코드 시퀀스를 생성한다. 동작 편집기는 언어 모델을 활용하여 자세 코드를 직접 편집함으로써 동작을 수정할 수 있다.
실험 결과, CoMo는 기존 최신 모델들과 비교해 동작 생성 성능이 경쟁력 있으며, 사용자 평가에서도 동작 편집 능력이 우수한 것으로 나타났다. 이를 통해 CoMo가 언어 기반 동작 생성 및 편집에 효과적임을 보여준다.
Stats
동작 생성 성능 지표인 R-Precision, FID, MM-DIST, Diversity, MModality 값이 제시되었다.
동작 편집 실험에서 사용자 선호도 비율이 제시되었다.