ID-Animator는 기존 확산 모델 기반 동영상 생성 모델에 얼굴 어댑터를 추가하여 학습 가능한 얼굴 잠재 쿼리로부터 아이덴티티 관련 임베딩을 인코딩할 수 있습니다. 아이덴티티 정보 추출을 돕기 위해 디커플드 인간 속성 및 행동 캡션 기술을 활용한 ID 지향 데이터셋 구축 파이프라인을 소개합니다. 또한 랜덤 얼굴 참조 학습 방법을 통해 참조 이미지의 아이덴티티 무관 특징 영향을 최소화하여 아이덴티티 충실도와 일반화 능력을 향상시켰습니다. 실험 결과, ID-Animator는 이전 모델 대비 우수한 맞춤형 인간 동영상 생성 성능을 보여줍니다. 또한 다양한 커뮤니티 모델과의 호환성을 보여 실제 응용에서의 확장성이 높습니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xuanhua He,Q... alle arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15275.pdfDomande più approfondite