핵심 개념
본 연구는 오디오-비주얼 모달리티 간 상관관계를 효과적으로 활용하여 딥페이크 탐지 성능을 향상시키는 것을 목표로 한다. 이를 위해 n-프레임 단위 토큰화 전략과 동적 가중치 융합(DWF) 기법을 제안한다.
초록
본 연구는 딥페이크 탐지를 위한 AVT2-DWF 모델을 제안한다. 이 모델은 다음과 같은 핵심 구성요소를 가진다:
얼굴 변환기 인코더: n-프레임 단위 토큰화 전략을 사용하여 비디오 프레임 내 얼굴 특징을 포괄적으로 추출한다. 이를 통해 미묘한 표정, 움직임, 상호작용 등의 시공간적 정보를 효과적으로 캡처할 수 있다.
오디오 변환기 인코더: 오디오 신호에서 내재된 장기 의존성을 자기 주의 메커니즘을 통해 포착한다. 이를 통해 오디오 고유의 패턴, 시간적 역동성 등의 특징을 추출할 수 있다.
동적 가중치 융합(DWF) 모듈: 오디오와 비주얼 모달리티 간 이질적인 정보를 효과적으로 융합하기 위해 동적으로 가중치를 예측한다. 이를 통해 모달리티 간 공통 속성과 위조 흔적을 균형 있게 활용할 수 있다.
실험 결과, AVT2-DWF는 DeepfakeTIMIT, FakeAVCeleb, DFDC 등의 벤치마크 데이터셋에서 최신 기법들을 뛰어넘는 성능을 보였다. 특히 크로스 데이터셋 평가에서도 우수한 일반화 능력을 입증하였다. 이는 다중 모달리티 간 일관성 확보가 실제 환경에서 효과적인 딥페이크 탐지 지표로 활용될 수 있음을 시사한다.
통계
딥페이크 탐지 정확도(ACC)가 DFDC 데이터셋에서 88.02%, FakeAVCeleb 데이터셋에서 87.57%를 달성했다.
딥페이크 탐지 AUC 성능이 DFDC 데이터셋에서 89.20%, FakeAVCeleb 데이터셋에서 88.32%를 기록했다.
크로스 데이터셋 실험에서 AVT2-DWF가 다른 최신 기법들을 크게 앞섰다. 예를 들어 FakeAVCeleb 데이터셋에서 74.60% AUC를 달성했다.
인용구
"본 연구는 오디오-비주얼 모달리티 간 상관관계를 효과적으로 활용하여 딥페이크 탐지 성능을 향상시키는 것을 목표로 한다."
"n-프레임 단위 토큰화 전략과 동적 가중치 융합(DWF) 기법을 통해 모달리티 간 공통 속성과 위조 흔적을 균형 있게 활용할 수 있다."