核心概念
機械学習モデルの訓練データの分布特性を、機密性を保ちつつ証明する技術的手法を提案する。
要約
本論文では、機械学習モデルの訓練データの分布特性を証明する新しい概念である「機械学習特性証明」を提案している。特に、訓練データの分布特性を明らかにすることに焦点を当てている。
まず、訓練データの分布特性を証明するための4つの要件を示す:
機密性の保持
有効性
悪意的な攻撃に対する堅牢性
効率性
次に、3つの異なる証明手法を提案している:
推論ベースの証明: モデルのパラメータを使って訓練データの分布特性を推論する。悪意的な攻撃に対する堅牢性を高めるため、敵対的訓練を行う。
暗号化ベースの証明: 秘密分散と安全な2パーティ計算を使って、訓練データの分布特性を直接検証する。有効性と堅牢性は高いが、効率性が低い。
ハイブリッド証明: 推論ベースの証明と暗号化ベースの証明を組み合わせたもの。推論ベースの証明が失敗した場合に暗号化ベースの証明を fallback として使う。
最後に、各手法の評価結果を示している。ハイブリッド証明は、有効性、堅牢性、効率性のバランスが良い。
統計
訓練データの分布特性を表す指標の値は、データセットによって異なるが、多くの場合0.0から1.0の範囲にある。