이 연구는 알려지지 않은 소스의 스푸핑된 음성 신호가 특정 보코더에서 생성되었는지 식별하는 것을 목표로, 오픈 월드 환경에서 단일 모델 속성 문제를 해결하는 새로운 접근 방식을 제시합니다.
본 논문에서는 훈련 중에 접하지 못한 공격 유형에 대한 일반화 능력이 떨어지는 기존 음성 딥페이크 탐지 기술의 한계를 극복하기 위해 메타 학습 기반 접근 방식을 제시합니다.
전문가 혼합 모델을 활용하여 다양한 음성 딥페이크 데이터셋에 대한 탐지 성능을 향상시킬 수 있다.
최근 음성 합성 기술의 발전으로 인해 생성된 초사실적인 음성 딥페이크에 대한 우려가 커지고 있다. 기존 탐지 방법은 단일 모델에 의존하여 성능 한계와 투명성 문제를 겪고 있다. 이에 본 연구는 검색 기반 증강 탐지(RAD) 프레임워크를 제안하여, 유사한 실제 음성 샘플을 검색하여 탐지 성능을 향상시킨다.
본 연구는 고성능 컴퓨팅 없이도 효과적으로 음성 딥페이크를 탐지할 수 있는 친환경 AI 프레임워크를 제안한다.