이 연구는 AI 생성 이미지 탐지를 위한 범용 탐지기를 개발하는 것을 목표로 한다. 기존 방법들은 특정 생성 모델에 과적합되어 새로운 모델에 대한 일반화가 어려웠다. 이를 해결하기 위해 저자들은 CLIP-ViT의 시각적 지식과 기술적 능력을 활용하는 방법을 제안한다.
구체적으로, 저자들은 CLIP-ViT의 MLP 레이어만 미세 조정하는 저차원 전문가 혼합 기법을 제안한다. 이 방법은 공유 및 개별 저차원 전문가를 활용하여 자연 이미지와 생성 이미지의 다양한 특성을 모델링한다. 이를 통해 특정 생성 모델에 과적합되지 않고 일반화 성능을 높일 수 있다.
실험 결과, 제안 방법은 다양한 생성 모델에 걸쳐 우수한 성능을 보였다. 특히 알려지지 않은 확산 모델과 자기회귀 모델에 대해 기존 최고 성능 대비 +3.64% mAP, +12.72% avg.Acc 향상을 달성했다. 또한 훈련 데이터의 0.28%만으로도 기존 최고 성능을 넘어섰다. 이는 제안 방법이 데이터 효율성과 일반화 능력이 뛰어남을 보여준다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor