본 연구는 최근 음성 합성 기술의 발전으로 인해 생성된 초사실적인 음성 딥페이크에 대한 우려를 해결하기 위해 검색 기반 증강 탐지(RAD) 프레임워크를 제안한다.
기존 딥페이크 탐지 방법은 단일 모델에 의존하여 성능 한계와 투명성 문제를 겪고 있다. 이에 본 연구는 검색 기반 증강 접근법을 도입하여 이러한 문제를 해결하고자 한다.
RAD 프레임워크는 다음과 같은 3단계로 구성된다:
실제 음성 샘플 데이터베이스 구축: 실제 음성 샘플을 WavLM 모델로 인코딩하여 특징 벡터와 인덱스를 데이터베이스에 저장한다.
유사 샘플 검색: 탐지 대상 음성 샘플을 WavLM으로 인코딩하고, 데이터베이스에서 가장 유사한 샘플들을 검색한다.
탐지 모델 학습: 탐지 대상 샘플과 검색된 유사 샘플을 입력으로 하는 다중 융합 주의 집중 분류기(RAD-MFA)를 학습한다.
실험 결과, 제안한 RAD 프레임워크가 ASVspoof 2021 DF 데이터셋에서 SOTA 성능을, 2019 및 2021 LA 데이터셋에서 경쟁력 있는 성능을 달성했다. 이는 검색 기반 증강 접근법이 딥페이크 탐지 성능 향상에 효과적임을 보여준다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania