이 논문은 음성 맥락을 활용하여 대화형 얼굴 생성의 립싱크 성능을 향상시키는 방법을 제안한다. 제안하는 Context-Aware Lip-Sync (CALS) 프레임워크는 두 개의 모듈로 구성된다:
Audio-to-Lip 모듈: 마스킹 학습을 통해 각 음소를 맥락화된 립 모션 유닛으로 매핑한다. 이를 통해 음성-립 상관관계를 구축하면서 음성 맥락을 모델링한다.
Lip-to-Face 모듈: 맥락화된 립 모션 유닛을 활용하여 타겟 정체성의 얼굴을 합성한다. 립 모션이 맥락에 맞게 생성되므로 시공간적 정렬이 향상된다.
실험 결과, 제안 방법은 기존 방법 대비 립싱크 성능이 크게 향상되었음을 보여준다. 또한 음성 맥락이 립 생성에 미치는 영향을 분석하여, 약 1.2초의 맥락 정보가 가장 효과적임을 확인하였다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Se Jin Park,... pada arxiv.org 04-02-2024
https://arxiv.org/pdf/2305.19556.pdfPertanyaan yang Lebih Dalam