核心概念
MoRAG는 텍스트 기반 인간 동작 생성을 위한 다중 융합 검색 보강 프레임워크로, 대규모 언어 모델과 부분별 동작 검색 모델을 통합하여 생성 및 검색 작업의 품질을 향상시킵니다.
摘要
MoRAG는 텍스트 기반 인간 동작 생성을 위한 새로운 다중 융합 검색 보강 프레임워크를 제안합니다. 이 방법은 대규모 언어 모델(LLM)을 활용하여 철자 오류와 문구 변경 문제를 해결하고, 부분별 동작 검색 전략을 통해 언어 공간에 걸친 일반화 능력과 다양성을 향상시킵니다.
구체적으로 MoRAG는 다음과 같은 과정을 거칩니다:
- LLM을 사용하여 "몸통", "손", "다리"에 대한 부분별 동작 설명을 생성합니다.
- 이 부분별 설명을 이용하여 각 부분에 대한 동작 시퀀스를 데이터베이스에서 검색합니다.
- 검색된 부분별 동작 시퀀스를 융합하여 전신 동작 시퀀스를 구성합니다.
- 구성된 동작 시퀀스를 확산 기반 동작 생성 모델의 추가 조건으로 활용하여 성능을 향상시킵니다.
실험 결과, MoRAG는 기존 방식에 비해 언어 공간에 걸친 일반화 능력, 미지의 텍스트 설명에 대한 성능, 그리고 생성 다양성이 향상되었음을 보여줍니다.
统计
사람이 손을 이용해 균형을 잡으며 서있다.
사람이 팔을 들어올리며 달걀을 휘저어 요리한다.
사람이 다리를 번갈아 들어올리며 걸어간다.
引用
"MoRAG는 텍스트 기반 인간 동작 생성을 위한 새로운 다중 융합 검색 보강 프레임워크를 제안한다."
"MoRAG는 대규모 언어 모델(LLM)을 활용하여 철자 오류와 문구 변경 문제를 해결하고, 부분별 동작 검색 전략을 통해 언어 공간에 걸친 일반화 능력과 다양성을 향상시킨다."
"실험 결과, MoRAG는 기존 방식에 비해 언어 공간에 걸친 일반화 능력, 미지의 텍스트 설명에 대한 성능, 그리고 생성 다양성이 향상되었음을 보여준다."