本研究針對大型語言模型(LLM)中存在的隱私風險提出了解決方案。LLM在理解和生成自然語言方面展現出卓越能力,但也可能無意中記憶私人信息,造成重大隱私問題。
為了評估機器遺忘(MU)方法在實際場景中的性能,研究者提出了RETURN數據集,包含2,492個真實個人及其相關的問答對。研究者以LLaMA-3-8B-Instruct模型為例,識別出深度記憶個人信息的個體,並將其分為遺忘集和保留集。
研究者提出了名為NAUF的新方法,包括名稱感知拒絕回答和對比數據增強兩個關鍵組件。名稱感知拒絕回答可以幫助模型學習哪些個人信息需要被保護,而對比數據增強則旨在擴展遺忘集和保留集的分佈,增強方法的泛化能力。
實驗結果表明,NAUF在平均遺忘分數上優於最佳基線方法5.65個百分點,有效保護了遺忘集中個人的隱私信息,同時維持了模型在保留集和其他任務上的性能。這些發現突出了NAUF在大型語言模型隱私保護方面的潛力。
To Another Language
from source content
arxiv.org
Głębsze pytania