แนวคิดหลัก
大規模言語モデルを用いたコードモデルは、トレーニングデータのプライバシー漏洩に対して脆弱であり、攻撃者は高精度で特定のコードがトレーニングデータに含まれていたかを推測できる。
บทคัดย่อ
GOTCHA: コードモデルに対するメンバーシップ推論攻撃
この論文は、大規模言語モデルを用いたコードモデルにおける、メンバーシップ推論攻撃(MIA)に対する脆弱性について論じています。
近年、GitHub Copilot, IntelliCode, CodeWhisperer など、大規模言語モデルをソースコードでトレーニングしたコードモデルが、コード補完などのソフトウェアエンジニアリングタスクに広く活用されています。
しかし、これらのモデルは、トレーニングデータに含まれる機密情報(パスワード、APIキーなど)の漏洩リスクを抱えています。
本論文では、特定のデータがモデルのトレーニングデータセットに含まれていたかどうかを攻撃者が推測できる、メンバーシップ推論攻撃(MIA)に焦点を当て、コードモデルにおけるこのリスクを検証します。
サロゲートモデルのトレーニング: 攻撃者は、被害者モデルのトレーニングデータの一部を用いて、サロゲートモデルをトレーニングします。
データセットの作成: サロゲートモデルを用いて、トレーニングデータと非トレーニングデータの両方に対してクエリを行い、出力結果を取得します。この出力結果と、対応する入力データ、および正解データを用いて、新しいデータセットを作成します。
MIA 分類器のトレーニング: 作成したデータセットを用いて、トレーニングデータと非トレーニングデータを区別する分類器をトレーニングします。具体的には、CodeBERTを用いてコードの埋め込みを抽出し、2層の全結合ニューラルネットワークを用いて分類器を構築します。