이 연구는 가수 목소리 딥페이크 탐지(SVDD)를 위해 음악 기반 모델(MFM)과 음성 기반 모델(SFM)의 성능을 처음으로 광범위하게 조사했다.
MFM(MERT 변형 및 music2vec)과 SFM(일반 음성 표현 학습 및 화자 인식용으로 사전 학습된 모델)의 SOTA 모델을 비교한 결과, 화자 인식 SFM 표현이 모든 기반 모델 중 가장 우수한 성능을 보였다. 이는 SFM이 가수 목소리의 음높이, 음색, 강도 등의 특성을 더 효과적으로 포착할 수 있기 때문으로 분석된다.
또한 저자들은 다양한 기반 모델의 보완적인 특성을 활용하기 위해 FIONA이라는 새로운 융합 프레임워크를 제안했다. FIONA은 x-vector(화자 인식 SFM)와 MERT-v1-330M(MFM)의 표현을 정렬하여 최고의 성능을 달성했다. FIONA은 개별 기반 모델 및 기존 융합 기술보다 우수한 13.74%의 최저 EER(Equal Error Rate)을 기록하며 SOTA 결과를 달성했다.
이 연구는 SVDD를 위한 적절한 기반 모델 선택과 모델 융합 기술 개발에 대한 지침을 제공하며, 향후 연구에 중요한 기반을 마련했다.
To Another Language
from source content
arxiv.org
Djupare frågor