核心概念
現階段針對大型語言模型的成員推斷攻擊存在嚴重缺陷,其依賴的訓練數據收集方法存在偏差,導致結果不可靠,需要更加嚴謹的評估方法。
研究背景
近年來,大型語言模型(LLM)的快速發展引發了人們對其安全和隱私問題的擔憂,其中一個重要方面是LLM是否會記憶訓練數據,以及如何評估這種記憶能力。成員推斷攻擊(MIA)是一種常用的評估機器學習模型記憶能力的方法,近年來也被應用於LLM。
現有方法的缺陷
現有針對LLM的MIA研究大多依賴於事後收集的數據集來評估攻擊效果。然而,這種數據收集方法存在嚴重缺陷,因為成員和非成員數據之間存在顯著的分布差異,例如時間差異、主題差異等。這種差異會導致MIA分類器學習到語言的時態差異,而不是真正的成員資格,從而誇大了攻擊效果,並導致對LLM記憶能力的錯誤理解。
本文貢獻
本文首先回顧了針對LLM的MIA相關文獻,並分析了現有評估方法的缺陷。作者發現,幾乎所有依賴於事後數據收集的MIA研究都存在分布差異問題,這嚴重影響了評估結果的可靠性。
為了解決這個問題,本文提出了一些更嚴謹的MIA評估方法,包括:
使用開源LLM發布的隨機測試集作為成員和非成員數據進行評估。
在LLM訓練數據中注入隨機生成的唯一序列。
通過在較小的數據集上微調LLM來創建隨機評估設置。
應用控制方法對事後收集的數據進行校準和評估。
總結
LLM的記憶能力是一個重要且多方面的问题,只有使用可靠、獨立的基準測試才能取得有意義的進展。本文提出的評估方法為未來研究提供了一個更嚴謹的框架,有助於更準確地評估LLM的記憶能力和潛在的安全隱私風險。
統計資料
針對 LLaMA-30B 模型在 WikiMIA 數據集上進行的成員推斷攻擊達到了 0.74 的 AUC。
針對 GPT-3 模型在受版權保護的書籍(BookMIA)上進行的成員推斷攻擊達到了 0.88 的 AUC。
針對 OpenLLaMA 模型在書籍和學術論文上進行的成員推斷攻擊分別達到了 0.86 和 0.68 的 AUC。
在 The Pile 數據集的 7 個子集中,直接從其未受版權保護的版本中抽取的成員和非成員數據,使用詞袋分類器進行的區分效果幾乎沒有優於隨機猜測基準。
對於經過適度去重處理的 MIMIR 數據集(13_0.8),幾乎所有數據子集的詞袋分類器 AUC 都保持在接近隨機猜測基準的水平。
對於經過更積極去重處理的 MIMIR 數據集(7_0.2),幾乎所有子集的詞袋分類器 AUC 都很大。