본 연구는 딥페이크 탐지를 위한 AVT2-DWF 모델을 제안한다. 이 모델은 다음과 같은 핵심 구성요소를 가진다:
얼굴 변환기 인코더: n-프레임 단위 토큰화 전략을 사용하여 비디오 프레임 내 얼굴 특징을 포괄적으로 추출한다. 이를 통해 미묘한 표정, 움직임, 상호작용 등의 시공간적 정보를 효과적으로 캡처할 수 있다.
오디오 변환기 인코더: 오디오 신호에서 내재된 장기 의존성을 자기 주의 메커니즘을 통해 포착한다. 이를 통해 오디오 고유의 패턴, 시간적 역동성 등의 특징을 추출할 수 있다.
동적 가중치 융합(DWF) 모듈: 오디오와 비주얼 모달리티 간 이질적인 정보를 효과적으로 융합하기 위해 동적으로 가중치를 예측한다. 이를 통해 모달리티 간 공통 속성과 위조 흔적을 균형 있게 활용할 수 있다.
실험 결과, AVT2-DWF는 DeepfakeTIMIT, FakeAVCeleb, DFDC 등의 벤치마크 데이터셋에서 최신 기법들을 뛰어넘는 성능을 보였다. 특히 크로스 데이터셋 평가에서도 우수한 일반화 능력을 입증하였다. 이는 다중 모달리티 간 일관성 확보가 실제 환경에서 효과적인 딥페이크 탐지 지표로 활용될 수 있음을 시사한다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы