Core Concepts
大規模多モーダルモデルにおけるタイポグラフィ攻撃の影響を調査し、より情報豊かなプロンプトが攻撃を軽減できることを示す。
Abstract
大規模多モーダルモデル(LMMs)は、タイポグラフィ攻撃に対する脆弱性を持つことが明らかになった。本研究では、LMMsの分散能力を評価するための専用のTypographic Datasetを紹介し、異なるタイポグラフィ要因がLMMsの注意散漫性にどのように影響するかを調査した。実験結果から、目立たないタイポでもLMMsをかなり混乱させる可能性があることが示唆されている。また、画像内のテキスト情報拡張によってCLIPのゼロショット分類パフォーマンスが向上することも確認された。
Stats
LLMsは平均して11.65%のパフォーマンス向上を達成した。
タイポリド画像は視覚問題解決能力を平均39.19%低下させた。
フォントサイズや不透明度などの異なるタイポグラフィ要因はLMMsへの影響に関連していた。
Quotes
"CLIPは追加情報付きプロンプトでゼロショット分類時のタイポグラフィ攻撃からほぼ免れることができます。"
"目立たないタイポでもLMMsを混乱させる可能性があります。"