이 연구는 비전-언어 모델(VLM)을 활용하여 합성 이미지를 탐지하는 혁신적인 방법인 Bi-LORA를 제안한다. 기존의 이진 분류 방식과 달리, Bi-LORA는 이미지 캡션 생성을 통해 실제 이미지와 합성 이미지를 구분한다. 이를 위해 BLIP2와 같은 VLM 모델을 활용하여 이미지에 대한 설명문을 생성하고, 이를 바탕으로 이미지의 진위 여부를 판단한다.
Bi-LORA의 핵심 특징은 다음과 같다:
실험 결과, Bi-LORA는 평균 93.41%의 정확도로 합성 이미지를 탐지할 수 있었다. 특히 확산 모델로 생성된 이미지에 대한 탐지 성능이 뛰어났으며, 노이즈에 대한 강건성과 GAN 생성 이미지에 대한 일반화 능력도 우수했다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Mamadou Keit... a las arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01959.pdfConsultas más profundas