成員推斷攻擊 (MIA) 旨在確認特定數據樣本是否被用於訓練模型。近年來,隨著大型語言模型 (LLM) 的快速發展,MIA 也引起了廣泛關注。許多人擔心 LLM 訓練過程中可能存在未經授權使用版權素材的情況,因此呼籲開發相應的檢測方法。然而,近期研究普遍認為,現有的 MIA 方法對 LLM 並不奏效。即使在某些情況下 MIA 似乎有效,也通常是由於實驗設計不當,導致出現其他捷徑特徵,讓攻擊者得以「作弊」。
本研究反駁了上述觀點,認為 MIA 仍然適用於 LLM,但前提是必須提供多個文件進行測試。研究人員構建了新的基準測試,用於衡量不同數據樣本規模下的 MIA 性能,範圍涵蓋從句子(n-gram)到文件集(多個詞彙塊)。為了驗證現有 MIA 方法在更大規模數據上的有效性,研究人員採用了近期一項關於數據集推斷 (DI) 的研究成果,將其應用於二元成員檢測任務,通過聚合段落級別的 MIA 特徵,實現了在文件和文件集級別的 MIA。這一基準測試首次成功地在預訓練和微調的 LLM 上實現了 MIA。
本研究證明,通過聚合較小文本單元(如句子或段落)的 MIA 分數,可以有效地在較大文本單元(如文件或文件集)上執行 MIA。這一發現對於解決版權和數據所有權問題至關重要,因為版權糾紛通常集中在單個文章或文件集上。此外,研究還探討了 MIA 在 LLM 不同訓練階段的性能,結果表明,雖然小型持續訓練模型對句子級別的 MIA 仍然具有魯棒性,但任務微調模型卻容易受到攻擊,這使得 MIA 成為分析測試集污染的有效方法。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询