ID-Animator는 기존 확산 모델 기반 동영상 생성 모델에 얼굴 어댑터를 추가하여 학습 가능한 얼굴 잠재 쿼리로부터 아이덴티티 관련 임베딩을 인코딩할 수 있습니다. 아이덴티티 정보 추출을 돕기 위해 디커플드 인간 속성 및 행동 캡션 기술을 활용한 ID 지향 데이터셋 구축 파이프라인을 소개합니다. 또한 랜덤 얼굴 참조 학습 방법을 통해 참조 이미지의 아이덴티티 무관 특징 영향을 최소화하여 아이덴티티 충실도와 일반화 능력을 향상시켰습니다. 실험 결과, ID-Animator는 이전 모델 대비 우수한 맞춤형 인간 동영상 생성 성능을 보여줍니다. 또한 다양한 커뮤니티 모델과의 호환성을 보여 실제 응용에서의 확장성이 높습니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Xuanhua He,Q... ב- arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15275.pdfשאלות מעמיקות