Core Concepts
최신 제로샷 음성 합성 모델로 생성된 오디오 데이터셋을 활용하여 다양한 공격에 강인한 오디오 딥페이크 탐지 모델을 개발하고, 적은 양의 타겟 도메인 데이터로도 효과적으로 적응할 수 있음을 보여줌.
Abstract
이 논문은 최신 제로샷 음성 합성 모델을 활용하여 구축한 크로스 도메인 오디오 딥페이크 데이터셋(CD-ADD)을 소개하고, 이를 활용한 오디오 딥페이크 탐지 모델 개발 및 평가 결과를 제시한다.
데이터셋 구축:
5개의 최신 제로샷 음성 합성 모델을 활용하여 300시간 이상의 음성 데이터 생성
다양한 공격 기법(노이즈 추가, 압축, 노이즈 제거 등) 적용
크로스 도메인 평가를 위해 다양한 음성 프롬프트 사용
모델 개발 및 평가:
Wav2Vec2와 Whisper 인코더 기반의 오디오 딥페이크 탐지 모델 fine-tuning
공격 데이터 augmentation을 통한 모델 강건성 향상
크로스 모델 평가 시 특정 음성 합성 모델이 가장 큰 도전 과제로 확인
적은 양의 타겟 도메인 데이터로도 효과적인 fine-tuning 가능
결과:
크로스 도메인 오디오 딥페이크 탐지는 매우 도전적인 과제
공격 데이터 augmentation이 모델 일반화 능력 향상에 도움
적은 양의 타겟 도메인 데이터로도 효과적인 fine-tuning 가능
신경망 기반 코덱이 탐지 성능에 큰 위협 요인
Stats
제로샷 음성 합성 모델의 합성 음성 품질은 실제 음성과 거의 구분이 어려울 정도로 향상되었다.
제로샷 음성 합성 모델 중 VALL-E가 가장 높은 단어 오류율(10.1%)을 보였다.
실제 음성과 제로샷 음성 합성 모델의 화자 유사도 점수는 0.36~0.56 수준이다.
Quotes
"Audio deepfakes, created by text-to-speech (TTS) and voice conversion (VC) models, pose severe risks to social stability by spreading misinformation, violating privacy, and undermining trust."
"For advanced TTS models, the subjective score of the synthetic speech can surpass that of the authentic speech (Ju et al., 2024) and humans are often unable to recognize deepfake audio (Müller et al., 2022; Cooke et al., 2024)."