핵심 개념
大型語言模型在進行單次編輯時容易發生崩潰,主要原因是編輯過程中使用了不一致的關鍵詞向量,以及首個詞彙的表示分布異常。通過統一使用前綴關鍵詞並在測試時添加隨機前綴,可以有效防止模型崩潰,同時保持編輯的有效性。
초록
本文深入分析了大型語言模型在使用ROME (Rank-One Model Editing)進行編輯時容易發生崩潰的根本原因。通過對比崩潰案例和正常案例的參數更新過程,發現崩潰直接源於更新矩陣中分母值異常小。這是由於ROME的實現中使用了不一致的關鍵詞向量所致:一種是在分母中使用未加前綴的原始關鍵詞,另一種是在其他位置使用加前綴的平均關鍵詞。
進一步分析發現,在崩潰案例中,未加前綴的關鍵詞分布與加前綴的關鍵詞分布存在顯著差異,導致了分母值極小。這種差異主要源於首個詞彙的表示分布異常,在自回歸型語言模型中,首個詞彙的表示往往與後續詞彙存在較大差異。
為了解決這一問題,本文提出了一種簡單有效的方法:在編輯階段統一使用加前綴的關鍵詞,在測試階段為首個詞彙添加隨機前綴,以確保訓練和測試的一致性。實驗結果表明,該方法可以有效防止模型崩潰,同時保持編輯的有效性。
통계
在崩潰案例中,更新矩陣的分子平均範數為GPT-2-XL 168.55、GPT-J 140.27、Llama2-7b 4.57。
在正常案例中,更新矩陣的分子平均範數為GPT-2-XL 79.91、GPT-J 88.69、Llama2-7b 16.52。
在崩潰案例中,更新矩陣的分母平均絕對值為GPT-2-XL 0.04、GPT-J 0.04、Llama2-7b 0.01。
在正常案例中,更新矩陣的分母平均絕對值為GPT-2-XL 9.60、GPT-J 12.78、Llama2-7b 2.63。
인용구
"在崩潰案例中,更新矩陣的分母值異常小,直接導致了模型的崩潰。"
"在崩潰案例中,未加前綴的關鍵詞分布與加前綴的關鍵詞分布存在顯著差異,這是造成分母值極小的根本原因。"
"首個詞彙的表示分布異常是導致崩潰的關鍵因素之一,這種現象在自回歸型語言模型中較為普遍。"