본 논문은 동작 마스크 확산 모델(MMDM)을 제안하여, 확산 모델의 문맥 추론 능력을 향상시켜 텍스트 기반 인간 동작 생성 성능을 개선하였다.
본 연구는 각 관절을 개별적으로 양자화하여 2D 토큰 맵을 생성하고, 시공간 2D 마스킹 및 시공간 2D 어텐션을 활용하여 텍스트 기반 인간 동작을 생성하는 새로운 프레임워크를 제안한다.
MoRAG는 텍스트 기반 인간 동작 생성을 위한 다중 융합 검색 보강 프레임워크로, 대규모 언어 모델과 부분별 동작 검색 모델을 통합하여 생성 및 검색 작업의 품질을 향상시킵니다.
LGTM은 텍스트 설명을 기반으로 지역적으로 정확하고 전체적으로 일관된 인간 동작을 생성하는 새로운 확산 모델 기반 프레임워크이다.
세부적인 신체 부위 설명을 활용하여 기존 데이터셋의 분포를 벗어나는 동작을 생성할 수 있는 새로운 프레임워크를 제안한다.
Motion Mamba는 기존 최신 방법들에 비해 장기 시퀀스 모델링과 동작 생성 효율성에서 크게 향상된 성능을 보여준다.