이 연구는 가수 목소리 딥페이크 탐지(SVDD)를 위해 음악 기반 모델(MFM)과 음성 기반 모델(SFM)의 성능을 처음으로 광범위하게 조사했다.
MFM(MERT 변형 및 music2vec)과 SFM(일반 음성 표현 학습 및 화자 인식용으로 사전 학습된 모델)의 SOTA 모델을 비교한 결과, 화자 인식 SFM 표현이 모든 기반 모델 중 가장 우수한 성능을 보였다. 이는 SFM이 가수 목소리의 음높이, 음색, 강도 등의 특성을 더 효과적으로 포착할 수 있기 때문으로 분석된다.
또한 저자들은 다양한 기반 모델의 보완적인 특성을 활용하기 위해 FIONA이라는 새로운 융합 프레임워크를 제안했다. FIONA은 x-vector(화자 인식 SFM)와 MERT-v1-330M(MFM)의 표현을 정렬하여 최고의 성능을 달성했다. FIONA은 개별 기반 모델 및 기존 융합 기술보다 우수한 13.74%의 최저 EER(Equal Error Rate)을 기록하며 SOTA 결과를 달성했다.
이 연구는 SVDD를 위한 적절한 기반 모델 선택과 모델 융합 기술 개발에 대한 지침을 제공하며, 향후 연구에 중요한 기반을 마련했다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Orchid Cheti... às arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.14131.pdfPerguntas Mais Profundas