現代の言語モデルアーキテクチャに潜むプライバシー漏洩リスクを明らかにするため、特定のモジュールから特徴情報を取得する二段階のプライバシー攻撃手法が提案されています。
大規模な言語モデルが訓練された際、個人データを記憶し、機密情報を抽出する新しい攻撃方法である「ニューラルフィッシング」の提案。