Core Concepts
합성곱 신경망과 캡슐 네트워크를 이용하여 실제와 구분하기 어려운 딥페이크 동영상을 정확하게 탐지하는 모델을 제안한다.
Abstract
이 연구는 딥페이크 동영상 탐지를 위한 새로운 모델을 제안한다. 딥페이크 기술은 기계 학습과 인공 지능을 활용하여 누군가가 실제로 참여하지 않은 상황에서도 마치 참여한 것처럼 보이게 만들 수 있다. 이로 인해 정치, 사회, 경제 등 다양한 분야에서 문제가 발생하고 있다.
이 연구에서는 합성곱 신경망과 캡슐 네트워크를 결합한 하이브리드 모델을 제안한다. 합성곱 신경망은 동영상 프레임에서 특징을 추출하고, 캡슐 네트워크는 이 특징들의 시간적 일관성을 분석하여 실제 동영상과 딥페이크 동영상을 구분한다. 또한 Explainable AI 기법을 활용하여 모델의 예측 결과를 설명할 수 있도록 한다.
실험 결과, 제안한 모델은 기존 모델에 비해 향상된 성능을 보였다. 특히 정확도 88%, 재현율 88%, AUC 95.1%의 성능을 달성하였다. 또한 Explainable AI를 통해 모델이 실제 동영상과 딥페이크 동영상을 구분하는 근거를 시각화하여 제시하였다.
Stats
실제 동영상에서는 얼굴 영역에서 활성화 가중치가 높게 나타나 모델이 얼굴 특징을 잘 포착하고 있음을 보여준다.
반면 딥페이크 동영상에서는 얼굴 영역의 활성화 가중치가 낮게 나타나 모델이 얼굴 특징을 잘 포착하지 못했음을 보여준다.
Quotes
"합성곱 신경망과 캡슐 네트워크를 결합한 하이브리드 모델은 실제 동영상과 딥페이크 동영상을 구분하는 데 효과적이다."
"Explainable AI 기법을 활용하여 모델의 예측 결과를 시각화하고 설명할 수 있다."