Core Concepts
실제 오디오와 가짜 오디오를 구분하는 기존 탐지 모델은 부분적으로 가짜 오디오를 탐지하는 데 어려움을 겪는다.
Abstract
이 논문은 실제, 가짜, 부분적으로 가짜 오디오로 구성된 RFP 데이터셋을 소개한다. 이 데이터셋은 기존 데이터셋의 한계를 보완하여 다양한 유형의 가짜 오디오를 포함한다.
실험 결과, 기존 탐지 모델은 부분적으로 가짜 오디오를 탐지하는 데 어려움을 겪었다. 최저 EER(Equal Error Rate)은 25.42%로 나타났다. 따라서 연구자들은 RFP와 같은 데이터셋을 사용하여 보다 효과적인 가짜 오디오 탐지 모델을 개발해야 한다고 제안한다.
Stats
부분적으로 가짜 오디오의 경우 기존 탐지 모델의 EER이 25.42%로 가장 높게 나타났다.
실제 오디오와 TTS 오디오의 경우 LFCC-GMM 모델의 EER이 0%로 가장 낮았다.
실제 오디오와 VC 오디오, 실제 오디오와 노이즈 오디오, 실제 오디오-VC 오디오-TTS 오디오의 경우 LFCC-LCNN 모델의 EER이 가장 낮았다.
Quotes
"실제 오디오와 가짜 오디오를 구분하는 기존 탐지 모델은 부분적으로 가짜 오디오를 탐지하는 데 어려움을 겪는다."
"최저 EER은 25.42%로 나타났다. 따라서 연구자들은 RFP와 같은 데이터셋을 사용하여 보다 효과적인 가짜 오디오 탐지 모델을 개발해야 한다."