核心概念
直接偏好優化 (DPO) 並非僅僅透過抑制最毒性神經元來降低大型語言模型的毒性輸出,而是透過多個神經元群組的協作,減少毒性方向的寫入並促進反毒性,從而實現毒性降低。
摘要
消融法不足以模擬直接偏好優化:神經元動態如何驅動毒性降低
本研究旨在深入探討直接偏好優化 (DPO) 算法如何降低大型語言模型 (LLM) 毒性輸出的內部機制,挑戰了先前研究認為 DPO 主要透過抑制最毒性神經元來實現毒性降低的觀點。
研究人員採用消融法和激活修補技術,分析 GPT-2 medium 模型在經過 DPO 微調前後,各層 MLP 神經元在毒性特徵方向上的寫入變化。他們使用預先訓練的毒性探針向量來量化每個神經元的毒性調整,並根據神經元對毒性降低的貢獻將其分組。