이 연구 논문에서는 단일 초상화 이미지와 오디오 입력을 바탕으로 사실적인 3D 사람 말하기 비디오를 생성하는 새로운 프레임워크인 Stereo-Talker를 제안합니다.
LLM 기반 오디오-모션 생성: 오디오에서 고급 의미 정보를 추출하고 사전 학습된 대규모 언어 모델(LLM)을 활용하여 오디오와 모션 시퀀스 간의 정교한 매핑을 설정합니다. LLM은 의미적 풍부함을 제공하여 보다 다양하고 사실적인 제스처 생성을 가능하게 합니다.
뷰 기반 및 마스크 기반 MoE: 렌더링 프로세스를 개선하기 위해 뷰 기반 및 마스크 기반 혼합 전문가(MoE) 메커니즘을 통합합니다. 뷰 기반 MoE는 다양한 관점에서 인간의 모습을 정확하게 묘사하는 데 중점을 두는 반면, 마스크 기반 MoE는 이미지의 다양한 부분을 구별하는 데 전문화되어 있습니다.
마스크 예측 모듈: 훈련 중에 안내 마스크의 정확성과 안정성을 향상시킬 뿐만 아니라 추론 중에 마스크 안내를 가능하게 하는 골격 데이터에서 자세한 인간 마스크를 예측하도록 훈련된 추가 변이 자동 인코더(VAE) 네트워크를 통합합니다.
대규모 HDAV 데이터셋: 3D 인간 생성 시스템 훈련과 관련된 문제를 해결하기 위해 2,203개의 고유한 신원으로 구성된 포괄적인 인간 비디오 데이터 세트를 도입합니다. 각 신원에는 모션 시퀀스와 자세한 속성에 대한 주석이 자세히 추가되어 있습니다.
Stereo-Talker 기술은 지정된 오디오 및 단일 초상화 이미지와 일치하는 고품질 3D 말하는 인간 비디오를 제작할 수 있는 기능을 제공합니다. 그러나 기만적이거나 오해의 소지가 있는 콘텐츠를 생성하는 데 악용될 가능성이 있습니다. 따라서 배포하기 전에 이러한 악의적인 응용 프로그램에 대한 엄격한 안전 장치를 사전에 고려하고 구현하는 것이 중요합니다.
이 논문에서는 원샷 3D 말하는 인간 합성 프레임워크인 Stereo-Talker를 소개합니다. 렌더링된 비디오의 시간적 일관성과 뷰 일관성을 향상시키기 위해 MoE를 통해 사전 정보를 통합하는 방법을 제안합니다. 또한 대규모 HDAV 데이터 세트를 공개하여 3D 인간 생성 분야의 발전을 촉진합니다. Stereo-Talker 프레임워크와 함께 제공되는 데이터 세트는 보다 몰입감 있고 자연스러운 상호 작용을 가능하게 함으로써 증강 및 가상 현실 영역을 비롯한 광범위한 다운스트림 애플리케이션에 큰 영향을 미칠 것으로 기대합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문