Centrala begrepp
ScanTalk은 고정된 토폴로지에 구애받지 않고 어떤 3D 얼굴 메쉬라도 애니메이션할 수 있는 새로운 딥러닝 프레임워크이다.
Sammanfattning
ScanTalk은 3D 얼굴 애니메이션을 위한 새로운 딥러닝 프레임워크이다. 기존 방식들은 고정된 토폴로지의 얼굴 모델만 다룰 수 있었지만, ScanTalk은 어떤 토폴로지의 3D 얼굴 메쉬라도 애니메이션할 수 있다.
ScanTalk의 핵심 구성은 다음과 같다:
- DiffusionNet 아키텍처를 활용하여 고정 토폴로지 제약을 극복
- 오디오 인코더와 DiffusionNet 인코더를 결합하여 오디오-기하학 특징 추출
- DiffusionNet 디코더를 통해 중립 얼굴 메쉬의 변형을 예측
이를 통해 ScanTalk은 다양한 토폴로지의 3D 얼굴 메쉬를 사실적으로 애니메이션할 수 있다. 기존 방식들과 비교해 성능이 유사하거나 우수하며, 특히 등록되지 않은 스캔 데이터에서도 효과적으로 작동한다.
Statistik
3D 얼굴 메쉬는 5,023개 정점과 9,976개 면으로 구성된다.
3D 얼굴 메쉬 시퀀스는 약 3-5초 길이이며, 초당 60프레임으로 캡처되었다.
오디오 데이터는 3-5초 길이의 음성 문장으로 구성된다.
Citat
"ScanTalk은 고정된 토폴로지에 구애받지 않고 어떤 3D 얼굴 메쉬라도 애니메이션할 수 있는 새로운 딥러닝 프레임워크이다."
"ScanTalk은 DiffusionNet 아키텍처를 활용하여 고정 토폴로지 제약을 극복하고, 오디오-기하학 특징을 결합하여 사실적인 3D 얼굴 애니메이션을 생성한다."