Core Concepts
본 연구는 음성 향상 기술을 사용하여 원본 오디오의 음향 장면을 조작하는 새로운 유형의 오디오 조작 시나리오에 초점을 맞추고 있다. 이를 위해 SceneFake라는 데이터셋을 제안하며, 다양한 음성 향상 기술을 사용하여 생성된 조작 오디오에 대한 탐지 성능을 평가한다.
Abstract
본 연구는 음성 신호에 포함된 다양한 정보 중 음향 장면 정보를 조작하는 새로운 유형의 오디오 조작 시나리오에 주목한다. 기존 데이터셋은 주로 음색, 운율, 언어 내용 또는 채널 잡음을 변경하는 방식의 조작 오디오를 다루었지만, 본 연구에서는 음성 향상 기술을 활용하여 원본 오디오의 음향 장면을 다른 장면으로 조작하는 시나리오를 다룬다.
이를 위해 SceneFake라는 새로운 데이터셋을 제안한다. 이 데이터셋은 ASVspoof 2019 LA 데이터셋과 DCASE 2022 음향 장면 데이터셋을 기반으로 구축되었다. 진짜 오디오는 깨끗한 음성에 무작위로 선택된 음향 장면을 혼합하여 생성하였고, 조작 오디오는 음성 향상 기술을 사용하여 원본 오디오의 음향 장면을 제거한 뒤 다른 장면을 추가하는 방식으로 생성하였다.
데이터셋은 훈련, 개발, 테스트 세트로 구성되며, 테스트 세트에는 훈련 및 개발 세트와 다른 장면과 음성 향상 기술이 포함된 데이터가 포함되어 있다. 이를 통해 모델의 일반화 성능을 평가할 수 있다.
본 연구는 SceneFake 데이터셋을 사용하여 다양한 베이스라인 모델의 성능을 평가하였다. 실험 결과, ASVspoof 2019 모델은 조작 오디오를 효과적으로 탐지하지 못하는 것으로 나타났다. 또한 노이즈 환경에서 훈련된 모델도 여전히 조작 오디오를 구분하기 어려운 것으로 확인되었다. 이는 기존 모델이 새로운 유형의 조작 오디오에 취약함을 보여준다.
Stats
조작 오디오의 신호 대 잡음비(SNR)가 -5dB일 때 GMM 모델의 오류율(EER)은 31.38%이다.
조작 오디오의 SNR이 20dB일 때 LCNN 모델의 오류율(EER)은 14.32%이다.
조작 오디오의 SNR이 5dB일 때 RawNet2 모델의 탐지 비용 함수(t-DCF)는 0.153이다.
Quotes
"음성 향상 기술은 원본 오디오의 음향 장면을 효과적으로 제거할 수 있으며, 조작된 오디오의 음질과 명료도가 원본과 매우 유사하다."
"조작된 오디오가 악의적인 목적으로 사용될 경우 사회적으로 큰 문제를 야기할 수 있다."