본 연구는 음성 딥페이크 탐지를 위한 친환경 AI 프레임워크를 제안한다. 기존의 딥러닝 기반 음성 딥페이크 탐지 기법은 높은 성능을 보이지만, 막대한 탄소 발자국을 야기한다. 이를 해결하기 위해 본 연구는 다음과 같은 접근법을 취한다:
사전 학습된 자기 지도 학습(SSL) 모델인 wav2vec 2.0을 특징 추출기로 활용한다. 이 모델은 추가 fine-tuning 없이 사용된다.
추출된 특징을 바탕으로 다양한 전통적 기계학습 알고리즘(KNN, 로지스틱 회귀, SVM 등)을 활용하여 분류기를 구축한다. 이를 통해 모델 복잡도와 계산 비용을 크게 낮출 수 있다.
실험 결과, 제안 방식은 ASVspoof 2019 LA 데이터셋에서 0.90%의 EER을 달성하며, 기존 최신 기법과 경쟁할 수 있는 수준의 성능을 보인다. 또한 1,000개 미만의 학습 가능 매개변수만을 사용하여 CPU 환경에서 효율적으로 학습 및 추론이 가능하다.
본 연구는 음성 딥페이크 탐지 분야에서 친환경 AI 접근법의 가능성을 보여주며, 향후 다른 음성 기술 분야에서도 활용될 수 있을 것으로 기대된다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究