Centrala begrepp
本文提出了一种名为GlitchProber的新方法,通过分析大型语言模型内部激活状态的差异来有效检测和修复故障令牌。
Sammanfattning
本文首先通过对Llama-2-7b-chat模型的实证研究,发现故障令牌与正常令牌在注意力模式和MLP状态上存在显著差异。这些差异主要集中在模型的下游层,并随着层数的增加而放大。
基于这些发现,作者提出了GlitchProber算法,包括检测和修复两个部分:
检测部分:
- 随机采样一部分令牌,提取其注意力模式、MLP门和MLP数据特征。
- 使用PCA进行降维,训练SVM分类器。
- 对剩余未采样的令牌使用训练好的分类器进行预测,并通过重复任务验证结果。
修复部分:
- 统计正常令牌在MLP模块中激活值的分布特征,识别出高激活和低激活的关键神经元。
- 比较故障令牌与正常令牌在这些关键神经元上的激活差异,计算调整因子。
- 根据调整因子修正故障令牌在关键层的激活值,以消除其对模型输出的负面影响。
作者在五个主流开源语言模型上评估了GlitchProber,结果显示其在检测效率、精度和召回率方面均优于现有方法,平均F1分数达到0.86,平均修复率为50.06%。GlitchProber为解决故障令牌问题提供了一种新的思路,有助于构建更加健壮和可解释的大型语言模型。
Statistik
在Llama-2-7b-chat模型中,存在6,425个故障令牌。
在Llama-2-7b-chat模型中,故障令牌与正常令牌在注意力模式和MLP状态的Wasserstein距离最大值分别为0.0025和0.12。
GlitchProber在五个开源语言模型上的平均F1分数为0.86,平均修复率为50.06%。
Citat
"GlitchProber unveils a novel path to address the challenges posed by glitch tokens and inspires future research toward more robust and interpretable LLMs."
"Evaluated on five mainstream open-source LLMs, GlitchProber demonstrates higher efficiency, precision, and recall compared to existing approaches, with an average F1 score of 0.86 and an average repair rate of 50.06%."