核心概念
UNDIAL 是一種基於自我蒸餾的新型遺忘學習方法,它透過調整目標 token 的 logits 來引導模型遺忘特定資訊,同時保持整體語言能力,解決了現有方法中常見的不穩定性和效能下降問題。
River Dong, Yijiang, Lin, Hongzhou, Belkin, Mikhail, Huerta, Ramon, & Vulic, Ivan. (2024). UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models. arXiv preprint arXiv:2402.10052.
本研究旨在解決大型語言模型 (LLM) 中遺忘學習的穩定性和效能下降問題,提出一個名為 UNDIAL 的新型遺忘學習方法,以實現更穩健和有效的遺忘學習。