現有的兩種大型語言模型遺忘方法(LLMU 和 RMU)雖然在基準測試中表現出色,但實際上只是學習拒絕回答特定問題,而非真正忘記有害信息,簡單的提示策略和良性數據微調就能恢復其有害能力。
基於梯度的遺忘方法在處理分佈外數據時,可以在不顯著影響模型整體性能的情況下有效遺忘數據,但對於分佈內數據,遺忘過程會降低模型在其他相似數據上的性能。
本文提出了一種名為 WAGLE 的新型框架,透過策略性權重歸因來識別對遺忘任務至關重要的模型權重子集,從而增強大型語言模型 (LLM) 的遺忘效能並保留其效用。
現今的機器遺忘方法不足以從大型語言模型中可靠地遺忘事實,因為它們沒有充分考慮事實的性質和事實之間的邏輯推理。
本文提出了一種名為 FLAT(僅使用遺忘數據的損失調整)的新方法,該方法僅使用遺忘數據和範例回答,通過最大化 f 散度來調整損失函數,從而實現大型語言模型的有效遺忘,同時最大程度地減少對模型保留能力的影響。