Conceitos essenciais
본 연구는 구조화된 인체 프라이어를 사용하지 않고도 음성 동기화 제스처 비디오를 직접 생성할 수 있는 새로운 모션 분리 프레임워크를 제안한다.
Resumo
본 연구는 음성 동기화 제스처 비디오 생성을 위한 새로운 모션 분리 프레임워크를 제안한다.
- 복잡한 인체 움직임과 외형 정보를 모두 보존할 수 있는 비선형 TPS 변환을 통해 잠재 모션 특징을 추출한다.
- 변환기 기반 확산 모델을 사용하여 음성과 제스처 간의 내재적 상관관계를 학습하고, 잠재 모션 공간에서 생성을 수행한다.
- 일관성과 연속성을 고려한 최적 모션 선택 모듈을 통해 장기적으로 안정적인 제스처 비디오를 생성한다.
- 누락된 세부 정보를 보완하기 위해 정제 네트워크를 도입한다.
- 실험 결과, 제안 방법이 기존 접근법에 비해 모션 및 비디오 관련 평가에서 크게 향상된 성능을 보인다.
Estatísticas
제안 방법은 기존 접근법에 비해 모션 관련 지표인 FGD와 Diversity에서 각각 56.44%, 8.54% 향상되었다.
제안 방법은 비디오 관련 지표인 FVD에서도 기존 최고 성능 대비 22.6% 향상되었다.
Citações
"제안 방법으로 생성된 제스처 비디오는 실제 영상과 구분하기 어려울 정도로 자연스럽고 음성과 잘 어울린다."
"제안 방법은 손 동작의 다양성과 섬세함을 잘 표현하여 기존 방법들에 비해 월등히 우수하다."