本研究の目的は、ビジョン-言語モデル(VLM)の事前学習モデルであるCLIPを使って、AIによって生成された画像を検出する手法を探索することです。
まず、CLIPの特徴量を使った軽量な検出手法を開発し、様々な困難な状況下での性能を調べました。従来の信念に反して、大規模なドメイン固有のデータセットを使って学習する必要はなく、むしろ不適切であることがわかりました。代わりに、単一の生成モデルからわずかな例画像を使うだけで、CLIP特徴量ベースの検出器は驚くべき一般化能力と高い堅牢性を示しました。これにより、最新の商用ツールであるDalle-3、Midjourney v5、Fireflyなどの異なるアーキテクチャにも適用できます。
ドメイン内のデータに対してはState-of-the-Art(SoTA)と同等の性能を達成し、ドメイン外のデータに対しては+6%のAUC向上、劣化/洗浄されたデータに対しては+13%の向上を実現しました。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問