核心概念
本文研究如何利用公開數據來提高差分隱私模型的訓練效果。我們確定了在最壞情況下,利用公開數據進行差分隱私模型訓練的最優錯誤率,並提出了新的算法,其錯誤率優於現有的最優算法。
摘要
本文研究了在差分隱私模型訓練中利用公開數據的問題。首先,我們確定了在最壞情況下,利用公開數據進行差分隱私模型訓練的最優錯誤率。我們證明了即使有公開數據,也無法在渐進意義上優於兩種簡單的基準算法:一是丟棄私有數據,只使用公開數據訓練;二是將公開數據視為私有數據,使用最優的差分隱私算法。
接下來,我們提出了新的算法,其錯誤率優於上述兩種基準算法。對於平均估計問題,我們的算法在常數項上優於最優算法。對於經驗風險最小化和隨機凸優化問題,我們的算法在常數項上也優於最優算法。我們的實驗結果表明,我們的算法在各種任務上都優於現有的基準算法,包括在某些情況下DP-SGD發散而我們的算法仍能收斂的情況。
總的來說,本文從理論和實踐兩個角度,深入研究了利用公開數據進行差分隱私模型訓練的問題,為該領域提供了新的洞見和算法。
統計資料
對於平均估計問題,最優差分隱私算法的平均平方誤差為 Θ(d/(nε^2) + 1/n)。
對於經驗風險最小化問題,最優差分隱私算法的超出最小經驗風險的期望為 Θ(dL/(nε) + L/√n)。
對於隨機凸優化問題,最優差分隱私算法的超出最小期望風險的期望為 Θ(dL/(√nε) + L/√n)。
引述
"我們證明了即使有公開數據,也無法在渐進意義上優於兩種簡單的基準算法:一是丟棄私有數據,只使用公開數據訓練;二是將公開數據視為私有數據,使用最優的差分隱私算法。"
"我們提出了新的算法,其錯誤率優於上述兩種基準算法。對於平均估計問題,我們的算法在常數項上優於最優算法。對於經驗風險最小化和隨機凸優化問題,我們的算法在常數項上也優於最優算法。"