Core Concepts
既存の画像の安全性分類器は、実世界の画像と AI 生成画像の両方を包括的かつ効果的に検出することができない。
Abstract
本研究では、UnsafeBench と呼ばれる包括的なベンチマーキングフレームワークを提案しています。まず、10,000 枚の実世界画像と AI 生成画像を収集し、11 のカテゴリの安全性に基づいて手作業で注釈付けしました。次に、5 つの一般的な画像の安全性分類器と 3 つの視覚言語モデルベースの分類器を収集し、それらの性能と頑健性を評価しました。
評価の結果、以下のような主な知見が得られました:
GPT-4V は最高の性能を示しましたが、閉鎖的な商用モデルであるため、広範な適用が困難です。現在、オープンソースの分類器では、広範な unsafe 画像を包括的かつ効果的に検出することはできません。
異なる unsafe カテゴリに対する検出性能にばらつきがあり、性的・ショック的な画像は平均 F1 スコアが 0.8 近くと高いのに対し、憎悪・ハラスメント・自傷の画像は 0.6 以下と低い。
実世界画像のみで訓練された従来の分類器は、AI 生成画像に対する性能が劣化します。AI 生成画像は、アーティスティックな表現や格子状のレイアウトといった特徴を持つため、分類器の予測を妨げる可能性があります。
大規模な事前学習モデルを活用したVLMベースの分類器は、従来の小規模な分類器に比べて、ノイズに対する頑健性が高い。
最後に、本研究では、GPT-4Vと比肩する性能を持つオープンソースの分類器「PerspectiveVision」を提案しています。PerspectiveVisionは、11のカテゴリの unsafe 画像を効果的に検出できます。
Stats
実世界画像の性的カテゴリでは、SD_Filterが0.833のF1スコアを達成したが、AI生成画像では0.727に低下した。
実世界画像の暴力カテゴリでは、Q16が0.693、GPT-4Vが0.774のF1スコアを示したが、AI生成画像では0.612、0.712に低下した。
Quotes
"既存の画像の安全性分類器は包括的かつ効果的ではない"
"AI生成画像は、アーティスティックな表現や格子状のレイアウトといった特徴を持つため、分類器の予測を妨げる可能性がある"
"大規模な事前学習モデルを活用したVLMベースの分類器は、ノイズに対する頑健性が高い"