핵심 개념
本稿では、限られた学習データでも高い汎用性を実現するAI生成画像検出モデル「FAMSeC」を提案する。これは、事前学習済みCLIP:ViTに、LoRAベースのForgery Awareness Module (FAM) とSemantic feature-guided Contrastive learning strategy (SeC) を組み合わせることで、未知の生成モデルに対しても高い精度で真贋判定を行う。
초록
FAMSeC: 少数のサンプル画像を用いた汎用的なAI生成画像検出手法
本稿は、AI生成画像の検出において、限られた学習データを用いながらも、高い汎用性を実現する新しい手法「FAMSeC」を提案する研究論文である。
近年のAI技術、特にGANや拡散モデルの発展により、非常にリアルな画像を生成することが可能になった。しかし、それと同時に、悪意のある偽画像の拡散によるセキュリティやプライバシーの脅威も増大している。そこで、本研究では、限られた学習データセットでも、様々な生成モデルに対して高い汎用性を持つAI生成画像検出モデルの開発を目的とする。
FAMSeCは、事前学習済みCLIP:ViTをベースに、以下の2つの要素を導入することで、高い汎用性を実現している。
1. LoRAベースForgery Awareness Module (FAM)
CLIP:ViTの最後の12個のViTブロックのマルチヘッドアテンションモジュールにLoRAを適用することで、事前学習済みの特徴量を保持しつつ、偽画像検出に必要な特徴量を効率的に学習する。
これにより、限られた学習データでも過学習を防ぎ、高い汎用性を維持することが可能となる。
2. Semantic feature-guided Contrastive learning strategy (SeC)
2つのCLIP:ViTを用い、一方を固定のガイドモデル(G)、もう一方をFAMで強化した特徴抽出器(T)として学習を行う。
各学習バッチにおいて、GとTから抽出された特徴量ペアに対して類似度スコアを計算し、真贋ラベルとの組み合わせに基づいて損失関数を定義する。
これにより、FAMは学習データセットに過剰適合することなく、真画像と偽画像の一般的な差異を学習することに集中できる。