이 논문은 정체성 기반 동영상 생성을 위한 Video Custom Diffusion (VCD) 프레임워크를 소개한다. VCD는 다음 3단계로 구성된다:
T2V VCD: 사용자 입력 프롬프트와 정체성 정보를 활용하여 저해상도 동영상을 생성한다. 3D 가우시안 노이즈 프라이어를 사용하여 프레임 간 안정성을 높인다.
Face VCD: 얼굴 영역을 추출하고 ID 모듈을 통해 정체성 특징을 강화한다. 부분 디노이징을 통해 배경과의 일관성을 유지한다.
Tiled VCD: 동영상을 고해상도로 업스케일링하고 ID 모듈을 통해 정체성과 배경을 모두 선명하게 렌더링한다.
제안된 ID 모듈은 기존 방식들의 단점을 보완하여 텍스트 정렬과 정체성 유사도 간 균형을 이룬다. 또한 3D 가우시안 노이즈 프라이어는 프레임 간 동작의 일관성을 높인다. 실험 결과, VCD는 기존 방식들에 비해 정체성 유지와 동작 안정성이 크게 향상된 동영상을 생성할 수 있음을 보여준다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Ze Ma,Daquan... في arxiv.org 03-21-2024
https://arxiv.org/pdf/2402.09368.pdfاستفسارات أعمق