본 논문은 음성 스푸핑 공격 탐지를 위한 새로운 딥러닝 모델인 XLSR-Mamba를 제안하는 연구 논문입니다.
본 연구의 주요 목표는 기존 트랜스포머 기반 모델보다 효율적이면서도 스푸핑된 음성과 실제 음성을 구별하는 데 효과적인 음성 스푸핑 공격 탐지 모델을 개발하는 것입니다.
본 논문에서는 XLSR-Mamba라는 새로운 모델을 제안합니다. 이 모델은 사전 훈련된 wav2vec 2.0 모델의 변형인 XLSR를 사용하여 풍부한 음성 표현을 추출하고, 듀얼 컬럼 양방향 Mamba (DuaBiMamba) 아키텍처를 통해 장기적인 시간적 의존성을 효율적으로 모델링합니다. DuaBiMamba는 로컬 및 글로벌 특징 의존성을 모두 캡처하기 위해 순방향 및 역방향 Mamba 레이어를 별도의 컬럼으로 구성하여 스푸핑 공격 탐지에 필요한 미묘한 차이를 효과적으로 식별합니다.
ASVspoof 2021 LA 및 DF 데이터 세트에 대한 실험 결과, XLSR-Mamba는 다른 최첨단 모델보다 성능이 뛰어나 EER 0.93% 및 min t-DCF 0.208의 최첨단 결과를 달성했습니다. 또한, XLSR-Mamba는 XLSR-Conformer와 비교하여 실시간 요소 (RTF)가 낮아 실시간 스푸핑 방지 애플리케이션에 적합한 것으로 나타났습니다.
본 논문에서 제안된 XLSR-Mamba 모델은 음성 스푸핑 공격 탐지 작업에서 기존 트랜스포머 기반 모델보다 우수한 성능과 효율성을 보여줍니다. 특히 DuaBiMamba 아키텍처는 로컬 및 글로벌 특징 의존성을 모두 효과적으로 캡처하여 스푸핑된 음성과 실제 음성을 구별하는 데 효과적입니다.
본 연구는 음성 스푸핑 공격 탐지 분야에서 Mamba 기반 아키텍처의 가능성을 강조하고, 실시간 음성 처리 애플리케이션에서 스푸핑 공격으로부터 음성 기반 시스템을 보호하는 데 기여할 수 있습니다.
본 연구는 XLSR-Mamba 모델의 효율성과 정확성을 입증했지만, 잡음이 많은 환경이나 다양한 유형의 스푸핑 공격에 대한 모델의 견고성을 더욱 향상시키기 위한 추가 연구가 필요합니다. 또한, DuaBiMamba 아키텍처를 다른 음성 처리 작업에 적용하여 그 효과를 평가하는 것도 흥미로운 연구 주제가 될 수 있습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yang Xiao, R... lúc arxiv.org 11-18-2024
https://arxiv.org/pdf/2411.10027.pdfYêu cầu sâu hơn