本文探討了使用成員推論攻擊作為訓練資料證明的問題。成員推論攻擊無法提供可靠的證據,因為無法估計在模型未使用目標資料的情況下(即在虛無假設下)模型的行為。由於無法獲取模型的完整訓練集和確切的訓練過程,因此無法從虛無假設中抽樣,進而無法限制攻擊的假陽性率。
現有的方法嘗試通過使用非成員資料或去偏的非成員集合來估計假陽性率,但這些方法都存在問題。作者指出,即使使用去偏的非成員集合,這種方法也會導致訓練資料證明的適用範圍很小,並且無法提供可靠的證據。
作者提出了兩種可靠的訓練資料證明方法:1) 在資料中注入隨機標記,並展示模型對這些標記的行為與其他標記不同;2) 使用更強大的資料提取攻擊,直接從模型中提取大量的訓練資料。這兩種方法都避免了直接估計虛無假設下的模型行為,從而提供了更可靠的訓練資料證明。
翻譯成其他語言
從原文內容
arxiv.org
深入探究