本文深入分析了大型語言模型在使用ROME (Rank-One Model Editing)進行編輯時容易發生崩潰的根本原因。通過對比崩潰案例和正常案例的參數更新過程,發現崩潰直接源於更新矩陣中分母值異常小。這是由於ROME的實現中使用了不一致的關鍵詞向量所致:一種是在分母中使用未加前綴的原始關鍵詞,另一種是在其他位置使用加前綴的平均關鍵詞。
進一步分析發現,在崩潰案例中,未加前綴的關鍵詞分布與加前綴的關鍵詞分布存在顯著差異,導致了分母值極小。這種差異主要源於首個詞彙的表示分布異常,在自回歸型語言模型中,首個詞彙的表示往往與後續詞彙存在較大差異。
為了解決這一問題,本文提出了一種簡單有效的方法:在編輯階段統一使用加前綴的關鍵詞,在測試階段為首個詞彙添加隨機前綴,以確保訓練和測試的一致性。實驗結果表明,該方法可以有效防止模型崩潰,同時保持編輯的有效性。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Wanli Yang, ... às arxiv.org 10-01-2024
https://arxiv.org/pdf/2406.11263.pdfPerguntas Mais Profundas