核心概念
CLIP モデルは、人間にとって無関係または認識不能な「CLIPマスタープリント」画像によって欺くことができる。これは、CLIP ベースの画像検索システムを悪用する可能性がある。
要約
本研究では、CLIP モデルの脆弱性を明らかにし、「CLIPマスタープリント」と呼ばれる画像を発見した。これらの画像は、CLIP モデルにとって多数の異なるプロンプトに対して高い確信度スコアを最大化することができるが、人間にとっては無関係または認識不能に見える。
具体的には以下の3つのアプローチを用いて「CLIPマスタープリント」を生成した:
- 確率的勾配降下法(SGD)
- 潜在変数進化(LVE)
- 射影勾配降下法(PGD)
これらの手法により生成された画像は、CLIP モデルにとって多数のプロンプトに対して高いスコアを得ることができ、実際の画像よりも優先的に選択されてしまう可能性がある。
さらに、生成された「CLIPマスタープリント」は、対象としたプロンプト以外の関連するプロンプトに対しても高いスコアを得る傾向があることが分かった。これは、CLIP モデルの脆弱性をさらに深刻化させる。
本研究では、CLIP モデルの脆弱性を軽減する2つの対策を提案した:
- モダリティギャップの縮小: 画像と言語の埋め込みベクトルの中心を近づけることで、モデルの頑健性を高められる。
- 入力の検知: 生成された「CLIPマスタープリント」を検知し、モデルの入力を除外する手法を提案した。
これらの対策は、CLIP ベースのシステムの安全性を高めるための重要な取り組みである。
統計
CLIP モデルは、人間にとって無関係または認識不能な「CLIPマスタープリント」画像に対して、多数のプロンプトに対して高い確信度スコアを出力する。
生成された「CLIPマスタープリント」は、対象としたプロンプト以外の関連するプロンプトに対しても高いスコアを得る傾向がある。
モダリティギャップの縮小により、CLIP モデルの脆弱性を軽減できる。
生成された「CLIPマスタープリント」を検知し、モデルの入力を除外する手法が有効である。
引用
「CLIP モデルは、人間にとって無関係または認識不能な『CLIPマスタープリント』画像によって欺くことができる。」
「生成された『CLIPマスタープリント』は、対象としたプロンプト以外の関連するプロンプトに対しても高いスコアを得る傾向がある。」
「モダリティギャップの縮小により、CLIP モデルの脆弱性を軽減できる。」
「生成された『CLIPマスタープリント』を検知し、モデルの入力を除外する手法が有効である。」