이 논문은 비디오 가이드 오픈 도메인 사운드 생성을 위한 새로운 프레임워크 MDSGen을 소개한다. MDSGen은 다음과 같은 핵심 혁신을 포함한다:
기존 리소스 집약적인 Unet 기반 모델과 달리, MDSGen은 효율적인 생성을 위해 노이즈 제거 마스크드 확산 트랜스포머를 사용한다. VGGSound 벤치마크 데이터셋에서 평가한 결과, 가장 작은 모델(5M 매개변수)은 기존 860M 매개변수 최신 모델(93.9% 정확도)보다 172배 적은 매개변수, 371% 적은 메모리, 36배 빠른 추론 속도로 97.9%의 정렬 정확도를 달성했다. 더 큰 모델(131M 매개변수)은 거의 99%의 정확도에 도달하면서 매개변수가 6.5배 적다. 이러한 결과는 우리의 접근법의 확장성과 효과를 강조한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문