Core Concepts
大規模なインターネットデータセットで事前学習されたCLIPモデルを微調整することで、さまざまな生成モデルで作成されたAI生成画像を高精度に検出できる。
Abstract
本論文では、大規模なインターネットデータセットで事前学習されたCLIPモデルを使って、AI生成画像(AIGI)を検出する手法を提案している。
まず、さまざまな生成モデル(ディフュージョンモデルやGANモデル)で生成された画像と、実写画像のデータセットを収集した。次に、CLIP モデルの画像エンコーダとテキストエンコーダを微調整し、画像が実写か生成画像かを分類できるようにした。
実験の結果、CLIP モデルは、専用のアーキテクチャを持つ既存のAIGI検出モデルと比べても遜色なく、あるいはそれ以上の性能を発揮することが分かった。特に、ディフュージョンモデルで生成された画像の検出精度が高かった。
また、CLIP モデルは計算コストが低く、GPU リソースも少なくて済むため、AIGI検出ツールの利用を広く促進できると期待される。本手法は、AIGIの弊害を軽減し、社会的影響を最小限に抑えるのに役立つと考えられる。
Stats
ディフュージョンモデルで生成された画像の検出精度は99%以上
GANモデルで生成された画像の検出精度は98%以上
実写画像の検出精度は95.7%
Quotes
"大規模なインターネットデータセットで事前学習されたモデルを活用することで、AIGIの検出精度を大幅に向上できる"
"CLIP モデルは計算コストが低く、GPU リソースも少なくて済むため、AIGI検出ツールの利用を広く促進できる"