toplogo
Sign In

인간 캐릭터의 다양한 동작을 텍스트 프롬프트로 생성하는 오픈 볼륨 모션 생성 기술


Core Concepts
본 연구는 사전 학습된 대규모 모델과 텍스트-동작 정렬을 위한 새로운 조건화 기법을 활용하여, 다양한 텍스트 프롬프트에 대해 사실적이고 풍부한 동작을 생성하는 기술을 제안한다.
Abstract
본 연구는 텍스트 기반 동작 생성을 위한 새로운 접근법인 OMG를 제안한다. 이 방법은 사전 학습된 대규모 모델과 텍스트-동작 정렬을 위한 새로운 조건화 기법을 활용한다. 사전 학습 단계에서는 대규모 비지도 동작 데이터를 활용하여 무조건부 확산 모델을 학습한다. 이를 통해 다양하고 사실적인 동작 생성 능력을 확보한다. 이후 미세 조정 단계에서는 텍스트 프롬프트를 조건으로 하는 Motion ControlNet을 도입한다. 이 모듈은 사전 학습된 모델의 매개변수를 고정한 채 텍스트 임베딩과 동작 특징을 효과적으로 정렬하는 새로운 Mixture-of-Controllers 기법을 활용한다. 이를 통해 다양한 텍스트 프롬프트에 대해 사실적이고 풍부한 동작을 생성할 수 있다. 실험 결과 제안 방법이 기존 기술 대비 우수한 성능을 보였다.
Stats
본 연구에서는 20M 프레임 이상의 대규모 비지도 동작 데이터를 활용하여 사전 학습을 수행하였다. 미세 조정 단계에서는 HumanML3D 데이터셋을 사용하였다.
Quotes
"본 연구는 사전 학습된 대규모 모델과 텍스트-동작 정렬을 위한 새로운 조건화 기법을 활용하여, 다양한 텍스트 프롬프트에 대해 사실적이고 풍부한 동작을 생성하는 기술을 제안한다." "이 방법은 사전 학습된 모델의 매개변수를 고정한 채 텍스트 임베딩과 동작 특징을 효과적으로 정렬하는 새로운 Mixture-of-Controllers 기법을 활용한다."

Key Insights Distilled From

by Han Liang,Ji... at arxiv.org 03-20-2024

https://arxiv.org/pdf/2312.08985.pdf
OMG

Deeper Inquiries

텍스트 프롬프트와 동작 간의 복잡한 관계를 효과적으로 모델링하기 위한 다른 접근법은 무엇이 있을까?

동작과 텍스트 간의 복잡한 관계를 모델링하는 또 다른 접근 방법은 Multi-Modal Generative Models를 활용하는 것입니다. 이 방법은 텍스트와 동작 데이터뿐만 아니라 이미지, 음성 등 다양한 모달리티 데이터를 함께 활용하여 모델을 학습시킵니다. 이를 통해 다양한 입력 모달리티 간의 상호작용을 고려하여 보다 풍부하고 현실적인 동작 생성을 달성할 수 있습니다. 또한, Graph Neural Networks(GNN)을 활용하여 동작과 텍스트 간의 그래프 구조를 모델링하는 방법도 있습니다. GNN은 그래프 데이터에 대한 학습에 특히 효과적이며, 동작과 텍스트 간의 복잡한 상호작용을 그래프로 표현하여 모델링할 수 있습니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star