핵심 개념
LGTM은 텍스트 설명을 기반으로 지역적으로 정확하고 전체적으로 일관된 인간 동작을 생성하는 새로운 확산 모델 기반 프레임워크이다.
초록
LGTM은 텍스트 기반 인간 동작 생성을 위한 새로운 접근 방식을 제안한다. 기존 방식의 한계를 극복하기 위해 LGTM은 다음과 같은 두 단계 파이프라인을 도입한다:
- 파티션 모듈: 대형 언어 모델(LLM)을 사용하여 전체 동작 설명을 각 신체 부위별 내러티브로 분해한다. 이를 통해 지역적 의미 정확성을 높인다.
- 전신 동작 최적화기: 각 신체 부위 동작 인코더의 독립적인 출력을 통합하여 전체적인 동작의 일관성과 유기성을 보장한다.
실험 결과, LGTM은 기존 방식에 비해 지역적 의미 정확성과 전체적 동작 일관성이 크게 향상된 동작을 생성할 수 있음을 보여준다. 이는 텍스트 기반 동작 생성 분야에서 주목할 만한 진전이다.
통계
우리 방법은 기존 방식에 비해 더 현실적이고 다양한 동작을 생성할 수 있다(FID 0.218, DIV 9.638).
우리 방법은 입력 텍스트와 출력 동작 간의 의미 일치도가 더 높다(R Precision Top1 0.490, Top2 0.689, Top3 0.788).
우리 방법은 각 신체 부위 동작과 텍스트 간의 의미 유사도가 실제 데이터와 거의 동일한 수준이다(PMM Sim 0.799, 0.719, 0.724, 0.763, 0.755, 0.763).
인용구
"LGTM은 텍스트 설명을 기반으로 지역적으로 정확하고 전체적으로 일관된 인간 동작을 생성할 수 있다."
"LGTM의 파티션 모듈과 전신 동작 최적화기는 기존 방식의 한계를 극복하는 데 핵심적인 역할을 한다."