Core Concepts
基礎モデルを用いた少量サンプル分類は、少数のラベル付きサンプルでも高精度な分類器を構築できるが、データ毒殺攻撃に脆弱である。本研究では、データ毒殺攻撃に対して認証可能な堅牢性を持つ少量サンプル分類手法FCertを提案する。
Abstract
本研究は、基礎モデルを用いた少量サンプル分類の認証可能な堅牢性について取り組んでいる。
少量サンプル分類は、大量のラベル付きデータを必要としない分類手法であり、基礎モデルを活用することで高精度な分類器を構築できる。しかし、データ毒殺攻撃に脆弱であり、攻撃者が少数のサンプルを操作することで分類器の出力を任意に変更できてしまう。
既存の防御手法は形式的な保証を提供できず、攻撃者と防御者の攻防戦となっている。一方、認証可能な防御手法は従来の教師あり学習向けに設計されており、少量サンプル分類への適用では性能が劣る。
そこで本研究では、FCertと呼ばれる、少量サンプル分類に対するデータ毒殺攻撃に対する初の認証可能な防御手法を提案する。FCertは、基礎モデルが出力する特徴ベクトルの堅牢な距離を計算することで、攻撃者が一定数のサンプルを操作しても同じラベルを予測することを保証する。
実験では、ベンチマークデータセットとOpenAI、Meta、Googleの基礎モデルを用いて評価を行った。その結果、FCertは1)無攻撃時の分類精度を維持し、2)既存の認証可能な防御手法や少量サンプル分類手法を上回る堅牢性を示し、3)効率的かつ汎用的であることが確認された。さらに、自然言語処理分野でも有効性が示された。
Stats
攻撃者が最大T個のサンプルを操作した場合でも、FCertは同じラベルを予測し続けられる。
FCertの認証可能な最大攻撃サイズTは、入力サンプルに依存して決まる。
Quotes
基礎モデルを用いた少量サンプル分類は、大量のラベル付きデータを必要としない分類手法である。
既存の防御手法は形式的な保証を提供できず、攻撃者と防御者の攻防戦となっている。
FCertは、基礎モデルが出力する特徴ベクトルの堅牢な距離を計算することで、攻撃者が一定数のサンプルを操作しても同じラベルを予測することを保証する。