본 논문은 텍스트 기반 인간 동작 생성 문제를 다룬다. 기존 연구들은 주로 빈 배경에서의 동작 생성에 초점을 맞추었지만, 실제로 인간은 3D 장면 속에서 동작을 수행한다. 이를 고려하여 저자들은 3D 장면에 맞는 동작 생성을 목표로 한다.
기존 방식은 3D 장면에 맞는 동작 생성기를 별도로 훈련하는 것이었지만, 이를 위해서는 다양한 3D 장면에서의 동작 데이터를 대량으로 수집 및 주석 처리해야 하는 어려움이 있었다. 이를 해결하기 위해 저자들은 ChatGPT를 활용하여 기존의 텍스트 기반 동작 생성기와 3D 장면을 연결하는 GPT-Connect 프레임워크를 제안한다.
GPT-Connect 프레임워크는 두 개의 채널로 구성된다. 첫째, Scene-GPT 채널에서는 ChatGPT를 활용하여 3D 장면을 이해하고 동작 시퀀스와의 상호작용을 나타내는 부분 스켈레톤 시퀀스를 출력한다. 둘째, GPT-Generator 채널에서는 이 부분 스켈레톤 시퀀스를 활용하여 기존의 텍스트 기반 동작 생성기가 3D 장면에 맞는 동작을 생성하도록 한다.
저자들은 HUMANISE 데이터셋에서 정량적 평가와 정성적 평가를 수행하였으며, 기존 방식 대비 우수한 성능을 보였다. 또한 실내 및 실외 다양한 3D 장면에서 효과적으로 동작을 생성할 수 있음을 확인하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문