Temel Kavramlar
대조 학습을 통해 조작에 강인한 오디오 딥페이크 탐지기를 제안한다.
Özet
이 논문은 오디오 딥페이크 탐지 모델의 조작 공격에 대한 취약성을 처음으로 체계적으로 연구했다. 기존 모델들은 단순한 조작 공격에 취약하여 성능이 크게 저하되는 것을 발견했다. 이를 해결하기 위해 대조 학습 기반의 CLAD 모델을 제안했다. CLAD는 다양한 조작에 대해 강인한 특징을 학습하고, 실제 오디오와 딥페이크 오디오의 특징 벡터 길이 차이를 활용하여 성능을 향상시켰다. 실험 결과 CLAD는 기존 모델 대비 조작 공격에 강인한 성능을 보였다. 특히 노이즈 주입, 볼륨 제어, 페이딩 등의 조작에서 1.63% 이하의 낮은 오탐지율을 달성했다.
İstatistikler
볼륨 제어 시 RawNet2의 오탐지율이 36.62%로 크게 증가했다.
백색 노이즈 주입 시 Res-TSSDNet의 오탐지율이 51.28%까지 상승했다.
반 사인 페이딩 시 AASIST와 SAMO의 오탐지율이 각각 31.23%, 28.24%로 크게 증가했다.
Alıntılar
"기존 탐지 방법들은 오디오에 가해질 수 있는 조작을 고려하지 않아 취약성을 보였다."
"CLAD는 대조 학습을 통해 조작에 강인한 특징을 학습하고, 길이 손실 함수를 추가하여 성능을 향상시켰다."
"CLAD는 다양한 조작 공격에서 1.63% 이하의 낮은 오탐지율을 달성했다."