Core Concepts
딥 생성 모델의 발전으로 인해 녹음된 오디오와 합성된 오디오를 구분하는 것이 점점 더 중요해지고 있다. 이 논문은 CLAP 오디오 임베딩을 기반으로 한 간단하고 효율적인 딥페이크 환경 오디오 탐지 파이프라인을 제안한다.
Abstract
이 논문은 딥페이크 오디오 탐지에 대한 연구를 다룬다. 딥페이크 오디오는 딥러닝 기술을 사용하여 생성되거나 변조된 오디오를 의미한다. 딥페이크 오디오에는 다양한 유형이 있으며, 이에 대한 탐지 연구는 음성 분야에서 활발히 진행되고 있지만 환경 소리 분야에서는 연구가 부족한 실정이다.
이 논문은 CLAP 오디오 임베딩을 활용한 간단하고 효과적인 딥페이크 탐지 파이프라인을 제안한다. 실험은 2023년 DCASE 챌린지 Task 7의 Foley 사운드 합성 데이터셋을 사용하여 수행되었다. 실험 결과, 44개의 최신 합성기로 생성된 가짜 소리를 평균 98% 정확도로 탐지할 수 있었다. CLAP 임베딩을 사용하는 것이 VGGish 임베딩보다 10% 더 나은 성능을 보였다. 잘못 분류된 사례에 대한 청취 테스트를 통해 탐지기가 놓치는 오디오 왜곡과 비현실적인 배경 소음 등의 특징을 확인할 수 있었다.
Stats
가짜 소리를 평균 98% 정확도로 탐지할 수 있었다.
CLAP 임베딩을 사용하는 것이 VGGish 임베딩보다 10% 더 나은 성능을 보였다.
Quotes
"딥 생성 모델의 발전으로 인해 녹음된 오디오와 합성된 오디오를 구분하는 것이 점점 더 중요해지고 있다."
"실험 결과, 44개의 최신 합성기로 생성된 가짜 소리를 평균 98% 정확도로 탐지할 수 있었다."