이 논문은 텍스트 제어를 통해 다양하고 현실적인 인간-장면 상호작용을 생성하는 TeSMo 방법을 소개한다. 기존 텍스트 기반 모션 생성 방법은 장면을 고려하지 않았지만, TeSMo는 장면 정보를 활용하여 보다 현실적인 상호작용을 생성한다.
TeSMo는 두 단계로 구성된다. 첫째, 탐색 모델은 장면 정보를 활용하여 목표 지점까지 장애물을 피해 이동하는 루트 궤적을 생성한다. 둘째, 상호작용 모델은 시작 자세와 목표 골반 자세, 그리고 대상 물체 정보를 활용하여 전신 모션을 생성한다.
실험 결과, TeSMo는 기존 방법 대비 목표 도달 정확도와 물체 침투 감소 등에서 우수한 성능을 보였다. 또한 사용자 평가에서도 71.9%의 선호도를 얻었다. 이를 통해 TeSMo가 텍스트 제어와 장면 인식을 결합하여 현실적이고 다양한 인간-장면 상호작용을 생성할 수 있음을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies