本文研究了在差分隱私模型訓練中利用公開數據的問題。首先,我們確定了在最壞情況下,利用公開數據進行差分隱私模型訓練的最優錯誤率。我們證明了即使有公開數據,也無法在渐進意義上優於兩種簡單的基準算法:一是丟棄私有數據,只使用公開數據訓練;二是將公開數據視為私有數據,使用最優的差分隱私算法。
接下來,我們提出了新的算法,其錯誤率優於上述兩種基準算法。對於平均估計問題,我們的算法在常數項上優於最優算法。對於經驗風險最小化和隨機凸優化問題,我們的算法在常數項上也優於最優算法。我們的實驗結果表明,我們的算法在各種任務上都優於現有的基準算法,包括在某些情況下DP-SGD發散而我們的算法仍能收斂的情況。
總的來說,本文從理論和實踐兩個角度,深入研究了利用公開數據進行差分隱私模型訓練的問題,為該領域提供了新的洞見和算法。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Andrew Lowy,... a las arxiv.org 09-11-2024
https://arxiv.org/pdf/2306.15056.pdfConsultas más profundas