이 연구는 사전 학습된 비전-언어 모델(VLM)인 CLIP의 잠재력을 탐구하여 AI 생성 이미지 탐지를 위한 경량 탐지 전략을 개발했다. 기존 믿음과 달리, 대규모 도메인 특정 데이터셋을 사용할 필요가 없으며 오히려 단일 생성 모델의 소수의 예시 이미지만으로도 CLIP 기반 탐지기가 다양한 아키텍처에 걸쳐 놀라운 일반화 능력과 강건성을 보여준다.
제안 방법은 최신 상용 도구인 Dalle-3, Midjourney v5, Firefly 등에 대해서도 우수한 성능을 달성한다. 기존 최신 기술 대비 일반화 능력에서 +6% AUC, 손상/세탁된 데이터에 대한 강건성에서 +13% 향상을 보인다. 이는 CLIP 특징이 기존 저수준 특징과 부분적으로 직교하는 것을 보여준다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы