Conceitos Básicos
GAIA는 기존 방식의 도메인 특정 휴리스틱을 제거하고 데이터 기반 접근법을 통해 자연스럽고 다양한 토킹 아바타를 생성합니다. 음성 입력에 따라 동작을 생성하고 참조 이미지의 외모를 유지하는 두 단계 접근법을 제안합니다.
Resumo
GAIA는 제로샷 토킹 아바타 생성을 위한 혁신적인 데이터 기반 프레임워크입니다. 기존 방식은 도메인 특정 휴리스틱에 의존하여 자연스러움과 다양성이 제한적이었지만, GAIA는 이를 극복하고자 합니다.
GAIA의 핵심 아이디어는 다음과 같습니다:
음성은 아바타의 동작만 구동하고 외모와 배경은 일정하다는 관찰에 기반하여, 프레임을 동작과 외모 표현으로 분리합니다.
동작 표현을 음성으로부터 예측하기 위해 확산 모델을 활용합니다. 이를 통해 자연스럽고 다양한 동작을 생성할 수 있습니다.
대규모 고품질 토킹 아바타 데이터셋을 구축하고 자동화된 필터링 정책을 적용하여 모델 학습에 활용합니다.
실험 결과, GAIA는 기존 방식 대비 자연스러움, 다양성, 입술 동기화, 시각적 품질 등에서 월등한 성능을 보였습니다. 또한 모델 규모 확장에 따른 성능 향상을 확인하였고, 다양한 응용 분야로의 확장성을 입증하였습니다.
Estatísticas
음성 입력에 따른 동작 생성은 기존 방식 대비 Sync-D 점수가 8.528로 실제 영상(8.548)에 근접합니다.
외모 복원 측면에서 FID 점수가 15.730으로 기존 방식 대비 우수합니다.
Citações
"GAIA는 기존 방식의 도메인 특정 휴리스틱을 제거하고 데이터 기반 접근법을 통해 자연스럽고 다양한 토킹 아바타를 생성합니다."
"음성은 아바타의 동작만 구동하고 외모와 배경은 일정하다는 관찰에 기반하여, GAIA는 프레임을 동작과 외모 표현으로 분리합니다."
"GAIA는 대규모 고품질 토킹 아바타 데이터셋을 활용하고 자동화된 필터링 정책을 적용하여 모델 학습에 활용합니다."