비전-언어 모델(VLM)을 활용하여 합성 이미지를 정확하게 탐지할 수 있는 혁신적인 방법인 Bi-LORA를 소개한다. 이 방법은 이미지 캡션 생성을 통해 실제 이미지와 합성 이미지를 구분하며, 특히 기존 방식에 비해 확산 모델(diffusion model)로 생성된 이미지에 대한 탐지 성능이 우수하다.
실제 이미지에 내재된 자연스러운 특성을 활용하여 생성 모델로 합성된 가짜 이미지를 효과적으로 탐지할 수 있다.
본 연구는 합성 이미지 생성 기술을 사용하지 않고도 딥페이크 탐지 모델의 일반화 성능을 크게 향상시킬 수 있는 새로운 학습 접근법을 제안한다. 이를 위해 다양한 이미지 생성 기술에서 공통적으로 관찰되는 주파수 도메인의 고유한 "지문"을 활용하여, 실제 합성 이미지 없이도 모델이 일반적인 합성 이미지의 특징을 학습할 수 있도록 한다.
제안된 FreqNet 방법은 주파수 공간 학습을 통해 다양한 GAN 모델에 대한 일반화 성능을 향상시킨다.