Core Concepts
단일 참조 얼굴 이미지를 사용하여 아이덴티티를 보존하면서도 주어진 텍스트 프롬프트에 맞춰 다양한 맞춤형 동영상을 생성할 수 있는 ID-Animator 기술을 제안합니다.
Abstract
ID-Animator는 기존 확산 모델 기반 동영상 생성 모델에 얼굴 어댑터를 추가하여 학습 가능한 얼굴 잠재 쿼리로부터 아이덴티티 관련 임베딩을 인코딩할 수 있습니다. 아이덴티티 정보 추출을 돕기 위해 디커플드 인간 속성 및 행동 캡션 기술을 활용한 ID 지향 데이터셋 구축 파이프라인을 소개합니다. 또한 랜덤 얼굴 참조 학습 방법을 통해 참조 이미지의 아이덴티티 무관 특징 영향을 최소화하여 아이덴티티 충실도와 일반화 능력을 향상시켰습니다. 실험 결과, ID-Animator는 이전 모델 대비 우수한 맞춤형 인간 동영상 생성 성능을 보여줍니다. 또한 다양한 커뮤니티 모델과의 호환성을 보여 실제 응용에서의 확장성이 높습니다.
Stats
단일 A100 GPU에서 하루 만에 학습 가능
단일 3090 GPU에서 21프레임 동영상 생성 가능
Quotes
"ID-Animator는 단일 참조 얼굴 이미지를 사용하여 아이덴티티를 보존하면서도 주어진 텍스트 프롬프트에 맞춰 다양한 맞춤형 동영상을 생성할 수 있습니다."
"ID 지향 데이터셋 구축 파이프라인과 랜덤 얼굴 참조 학습 방법을 통해 ID-Animator는 아이덴티티 충실도와 일반화 능력을 향상시켰습니다."