大規模モデルの機械学習忘却を効率的かつ正確に実現するため、パブリックデータとプライベートデータを分離し、適応的なプロンプトチューニングを行う手法を提案する。
自己教師学習の特殊なメカニズム(データ拡張、均一性)を考慮した上で、裏口攻撃のためのレジリエントなトリガー設計を提案する。
説明ベースの会員推論攻撃に対する最適な閾値が存在することを数学的に証明する。
モデル提供者は自身のモデルとデータを秘密にしつつ、第三者が信頼できる方法で監査を実行できるようにする。
逆因果説明を利用することで、効率的にターゲットモデルの代替モデルを抽出できる。また、差分プライバシーを逆因果説明生成プロセスに組み込むことで、プライバシーを保護しつつ、モデル抽出攻撃を軽減できる。
機械学習モデルのアンラーニング(学習済みデータの削除)プロセスを悪用し、削除されたデータの機密情報を復元することができる。
基礎モデルを統合したフェデレート学習システムは、基礎モデルの安全性の問題により新たな脅威に晒されており、既存の防御策では十分な保護ができない。
事前学習モデルを汚染することで、モデルの微調整時にトレーニングデータの詳細が大幅に漏洩する可能性がある。
提案するMisGUIDE防御フレームワークは、Vision Transformerを用いたOOD検出と確率的なミスリーディング閾値を組み合わせることで、データ不足の深層学習モデル抽出攻撃に対する堅牢な防御を実現する。