본 논문은 사회 미디어 댄스 생성을 위한 새로운 접근법인 DISCO를 제안한다. 기존의 인간 동작 전이 방식은 실제 사회 미디어 댄스 시나리오에서 한계를 보이는데, 이는 다양한 인물, 배경, 동작에 대한 일반화 성능이 부족하기 때문이다.
DISCO는 두 가지 핵심 설계를 통해 이러한 문제를 해결한다. 첫째, 디스엔탱글드 컨트롤 모델 아키텍처를 제안하여 인물, 배경, 동작을 독립적으로 제어할 수 있게 한다. 이를 통해 다양한 구성요소의 조합이 가능해져 생성 결과의 일관성과 유연성이 향상된다.
둘째, 대규모 인간 이미지 데이터셋을 활용한 인간 속성 사전 학습 기법을 도입한다. 이를 통해 다양한 인물 속성을 효과적으로 학습할 수 있어 기존 방식 대비 월등한 일반화 성능을 달성한다.
정성적, 정량적 평가 결과, DISCO는 기존 최신 방식 대비 월등한 성능을 보인다. 특히 FID 28.31, FID-VID 55.17의 우수한 결과를 달성했으며, 사용자 평가에서도 높은 선호도를 얻었다. 또한 다양한 실험을 통해 DISCO의 일반화 성능과 유연성을 검증하였다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Tan Wang,Lin... kl. arxiv.org 04-08-2024
https://arxiv.org/pdf/2307.00040.pdfDybere Forespørgsler