단일 인물 동작 데이터만으로도 모든 관절을 정밀하게 제어하여 다중 인물 상호작용을 생성할 수 있다.
실제 인간 동작, 자유로운 언어 설명, 실내외 다양한 장면을 포함한 대규모 데이터셋 LaserHuman을 소개하고, 이를 활용한 장면 인식 언어 유도 인간 동작 생성 모델을 제안한다.
Motion Mamba는 기존 최신 방법들에 비해 장기 시퀀스 모델링과 동작 생성 효율성에서 크게 향상된 성능을 보여준다.