이 연구는 비전-언어 모델(VLM)을 활용하여 합성 이미지를 탐지하는 혁신적인 방법인 Bi-LORA를 제안한다. 기존의 이진 분류 방식과 달리, Bi-LORA는 이미지 캡션 생성을 통해 실제 이미지와 합성 이미지를 구분한다. 이를 위해 BLIP2와 같은 VLM 모델을 활용하여 이미지에 대한 설명문을 생성하고, 이를 바탕으로 이미지의 진위 여부를 판단한다.
Bi-LORA의 핵심 특징은 다음과 같다:
실험 결과, Bi-LORA는 평균 93.41%의 정확도로 합성 이미지를 탐지할 수 있었다. 특히 확산 모델로 생성된 이미지에 대한 탐지 성능이 뛰어났으며, 노이즈에 대한 강건성과 GAN 생성 이미지에 대한 일반화 능력도 우수했다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mamadou Keit... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01959.pdfYêu cầu sâu hơn