이 논문에서는 최근 제안된 선별적 상태 공간 모델인 마바를 활용하여 폴리 사운드를 생성하는 모델 MambaFoley를 소개한다. 폴리 사운드 생성은 멀티미디어 콘텐츠 제작에 중요한 역할을 하는 작업이다. 기존 연구에서는 주로 확산 기반 모델을 활용했지만, 이 논문에서는 마바 모델을 활용하여 시퀀스 모델링 성능을 높이고자 한다.
MambaFoley는 확산 기반 모델의 백본으로 U-Net 구조를 사용하며, 마바 모델을 병목 지점에 적용하였다. 또한 시간적 정보를 BFiLM 기법으로 조절할 수 있도록 하였다.
실험 결과, MambaFoley는 기존 모델들에 비해 객관적 지표와 주관적 평가에서 모두 우수한 성능을 보였다. 특히 전반적인 음질 측면에서 우수한 것으로 나타났다. 이는 마바 모델의 시퀀스 모델링 능력이 폴리 사운드 생성에 효과적으로 활용되었음을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询